美文网首页
第九章 使用分组、聚合和映射 --- 归并

第九章 使用分组、聚合和映射 --- 归并

作者: 蚂蚁闲游 | 来源:发表于2017-10-15 16:20 被阅读0次

大纲

  • 根据字段的值将文档分组;
  • 创建聚合流水线(aggregation pipeline)
  • 使用聚合流水线来操作结果
  • 创建包含reduce 和 finalize函数的映射-归并(map reduce)操作
  • 使用映射-归并将一组文档归并为特定形式
MongoDB的强大功能之一是,能够在服务端对文档的值执行复杂的操作,
以生成全新的数据集。这让您能够返回这样的数据集,
即它们基于存储于数据库中的文档,但格式截然不同。
这样做的优点是,可在服务器端完成处理, 而不用先将文档发送给客户端。
可以达到,可以在服务端生成不同格式的数据,以返回给客户端。

分组方法:group()语法如下:

group({key,reduce,initial,[keyf],[cond],finalize}

参数说明:

参数 值类型 描述
keys 文档对象 一个指定要根据哪些键进行分组的对象, 其属性为要用于分组的字段。例如,要根据文档的字段first和last进行分组,可使用{key:{first:1,last:1}}
cond query对象 可选参数,这是一个query对象,决定了初始结果集将包含哪些文档。如何要包含字段size的值大于5的文档,可使用{cond:{size:{$gt:5}}}
initial 文档对象 一个包含初始字段和初始值的初始group对象,用于在分组期间聚合数据。对于每组不同的键值,都将创建一个初始对象。最常见的情况是,使用一个计数器来跟踪与键值匹配的文档数。例如:{initial:{"count":0}}
reduce 函数 一个接受参数obj和prev的函数(短小精悍(obj,prev)),对于每个与查询匹配的文档,都执行这个函数。其中参数obj为当前文档,而prev是根据参数initial创建的对象。这让你能够根据obj来更新prev,如计数或累计。例如,要将计数递增,可使用{reduce:function(obj,prev){prev.count++}}.
finalize 函数 一个接受唯一参数obj的函数(function(obj)),这个参数是对与每个键值组合匹配的最后一个文档执行reduce函数得到的,对于每个键值组合,都将对其使用reduce函数得到的最终对象调用这相函数,然后以数组的方式返回结果。
keyf 可选,function 用于替代参数key,可以不指定其属性为分组字段的对象,而指定一个函数,这个函数返回一个用于分组的key对象。这让你能够使用函数动态地指定要根据哪些键进行分组。

集合方法

MongoDB的一大扰点是, 能够装数据库查询结果聚合成完全不同于原始集合的结构 。MongoDB 集合框架相当杰出,简化了使用一系列操作来处理数据,以生成非凡结果的流程;
MongoDB数据集合是它的一个提高性能的一个重要亮点,值的重点研究学习

理解方法aggregate()

语法如下:

 aggregate( operator, [operator], [....])

**注意在MongoDB 2.6+的版本后, 针对aggregate()的方法返回结构进行了调整, 即直接返回一个包含聚合结果的迭代器。如下代码:

results = myCollection.aggregate(....);
results.forEach(function(item){
....
};

aggregate()方法中使用的聚合运算符如下

运算符 描述
$project 通过重命名,添加或删除字段来重新定议文档。您还可以重新计算值以及添加子文档。例如,下面的示例包含字段title并排除字段name:{$project:{title:1,name:0}};下面的示例如将字段name重命名为title:{$project:{title:"$name"}},下面的示例添加新字段total并根据字段price和tax计算其值:{$project:{total:{$add:["$price","$tax"]}}}
$match 使用本书前面讨论的查询运算符过滤文档集,如{$match:{value:{$gt:50}}}
$limit 限制传递给聚合流水线中下一个阶段的文档数,如{$limit:5}
$skip 指定执行聚合流水线的下一个阶段前跳过多少个文档,如{$skip:0}
$unwind $unwind的值必须是数组字段的名称(必须在该数组字段名前加上$,这样它才会被视为字段名,而不是字符串)。$unwind对指定的数组进行分拆,为其中的每个值创建一个文档,如{$unwind:"$myArr"}, 注意在3.2+ 的版本后,$unwind的函数语法有了变化,如下文说明
$group 将文档分组并生成一组新文档,但流水线的下一个阶段使用。在$group中必须定义新文档的字段;还可对各组的文档应用分组表达式运算符,如将value字段的值相加:{$group:{set_id:"$so_id", total:{$num:"$value"}}}
$sort 将文档交给聚合流水线的下一个阶段前, 对它们进行排序。$sort指定包含属性field:<sort_order>的对象,其中<sort_order>为1(升序)或 -1(降序),如{$soft:{name:1,age:-1}}

aggregate() 方法的使用例子:

db.zipcodes.aggregate([
      {$group:{_id:{_id:"$_id",state:"$state"},pop:{$sum:"$pop"}}},
      {$group:{_id:"$_id.state",avgtotalPop:{$avg:"$pop"}}}
])

相关文章

  • 第九章 使用分组、聚合和映射 --- 归并

    大纲 根据字段的值将文档分组; 创建聚合流水线(aggregation pipeline) 使用聚合流水线来操作结...

  • Shardingsphere内核剖析之归并引擎

    功能划分:分为遍历、排序、分组、分页和聚合 5 种类型。结构划分:分为流式归并、内存归并和装饰者归并,装饰者归并可...

  • 2018-10-31

    一、聚合函数和分组我们常见的聚合函数 聚合函数和分组group by 一起使用语法 例如使用 count()se...

  • Es7.x使用RestHighLevelClient进行聚合操作

    聚合操作分为指标聚合和分组聚合。RestHighLevelClient可以使用API方法也可以使用script脚本...

  • mysql聚合函数和分组

    聚合函数的使用---聚合函数,为了统计而生count(*)表示计算总行数: 分组的基本使用: 查看按着性别分组以后...

  • elasticsearch java聚合api

    elasticsearch java聚合api使用(多字段分组统计、聚合,最大最小值) elasticsearch...

  • mysql 表的基本操作

    表的排序方法 限制查询 order by 和 limit 的组合使用 myspl 聚合函数 分组

  • mysql_group by

    group by使用了group by 分组,写法:select 分组的字段, 聚合行数 from 表 g...

  • Day33 - 2018-05-07

    使用pandas的groupby()能够对数据进行分组并聚合信息聚合,或分组进行数据转换,相关文档,类似数据库的g...

  • 聚合函数小记

    聚合函数不使用group by 分组只会查询出一条结果使用group by 分组后会统计不同组别的数量

网友评论

      本文标题:第九章 使用分组、聚合和映射 --- 归并

      本文链接:https://www.haomeiwen.com/subject/uoznyxtx.html