美文网首页IT·实战·经验
Mongodb高级篇-MapReduce

Mongodb高级篇-MapReduce

作者: 1angxi | 来源:发表于2015-07-09 18:52 被阅读2172次

    Mongodb支持使用javascript编写mapreduce函数来做分布式数据处理。然而,这种强大是有代价的:MapReduce非常慢,不应该用在实时的数据分析中。

    举个MapReduce使用的例子,我们有一个orders表,包含cust_id,amount,status三个字段,现在我们有统计同一个cust_id的订单的总额。

    可以像下面这样写:

    map-reduce

    执行顺序显而易见:

    1、执行query筛选出特定数据

    2、执行map返回键值对,这里的值可以是一个list

    3、执行reduce对value求sum

    4、得到名为order_totals的结果

    上面这个例子是挂在官网上的。但是实际使用时按照这个写就是无法通过....

    详细命令:

    db.runCommand(
    {
    mapreduce : 字符串,集合名,
    map : 函数,见下文
    reduce : 函数,见下文
    [, query : 文档,发往map函数前先给过渡文档]
    [, sort : 文档,发往map函数前先给文档排序]
    [, limit : 整数,发往map函数的文档数量上限]
    [, out : 字符串,统计结果保存的集合]
    [, keeptemp: 布尔值,链接关闭时临时结果集合是否保存]
    [, finalize : 函数,将reduce的结果送给这个函数,做最后的处理]
    [, scope : 文档,js代码中要用到的变量]
    [, jsMode : 布尔值,是否减少执行过程中BSON和JS的转换,默认true] //注:false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,//true时BSON-->js-->map-->reduce-->BSON
    [, verbose : 布尔值,是否产生更加详细的服务器日志,默认true]
    }
    );

    找了一个简单一点的例子,可以尝试做一下。

    首先生成1000条测试数据。

    for (var i=0; i<1000; i++) { 
    db.t.insert({
    "name" : "user"+i,
    "age":i ,
    "created_at" : new Date()
    });
     }
    

    创建map函数:

    var m=function(){
    emit(this.age,this.name);
    }
    

    emit:返回一个键值对。emit的第一个参数是key,就是分组的依据,这是自然是age了,后一个是value,可以是要统计的数据,下面会说明,value可以是JSON对象。

    这样m就会把送过来的数据根据key分组了,可以想象成如下结构:

    第一组
    {key:0,values: ["name_6","name_12","name_18"]
    第二组
    {key:1,values: ["name_1","name_7","name_13","name_19"]
    ......
    

    第二步就是简化了,编写reduce函数:

    var r=function(key,values){
    var ret={age:key,names:values};
    return ret;
    }
    

    reduce函数会处理每一个分组,参数也正好是我们想像分组里的key和values。

    这里reduce函数只是简单的把key和values包装了一下,因为不用怎么处理就是我们想要的结果了,然后返回一个对象。对象结构正好和我们想象的相符!

    最后,还可以编写finalize函数对reduce的返回值做最后处理:

    var f=function(key,rval){
    if(key==0){
    rval.msg="a new life,baby!";
    }
    return rval
    }
    

    这里的key还是上面的key,也就是还是age,rval是reduce的返回值,所以rval的一个实例如:{age:0,names:["name_6","name_12","name_18"]},

    这里判断 key 是不是 0 ,如果是而在 rval 对象上加 msg 属性,显然也可以判断 rval.age==0,因为 key 和 rval.age 是相等的嘛!!

    db.runCommand({
        mapreduce:"t",
        map:m,
        reduce:r,
        finalize:f,
        out:"t_age_names"
        }
    )
    
    db.t_age_names.find()
    

    结果导入到 t_age_names 集合中,查询出来正是想要的结果,看一下文档的结构,不难发现,_id 就是 key,value 就是处理后的返回值。

    map-reduce的性能优化

    这篇文章总结的很好了,不再赘述:MongoDB MapReduce 性能提升20倍的优化宝典

    map-reduce运行于sharding

    比较一下map-reduce运行于sharding和单个实例下的性能。

    插入10万条数据:

    for (var i=0; i<100000; i++) {
     db.t.insert({"name" : "user"+i,"age":i ,"created_at" : new Date()}); 
    }
    

    用map-reduce来查询sharding下实例:

    db.runCommand({ mapreduce:"t",    map:m,    reduce:r,    finalize:f,  sort:{"age":-1},   out:"t_age_names"    })
    
    {
        "result" : "t_age_names",
        "timeMillis" : 5082,
        "counts" : {
            "input" : 101000,
            "emit" : 101000,
            "reduce" : 1000,
            "output" : 100000
        },
        "ok" : 1
    }
    

    运行时间是5秒左右。

    在单机单实例下运行:

    {
        "result" : "t_age_names",
        "timeMillis" : 4820,
        "counts" : {
            "input" : 101000,
            "emit" : 101000,
            "reduce" : 1000,
            "output" : 100000
        },
        "ok" : 1
    }
    

    单机单实例下只需要4.8秒。比单机sharding要快。(因为sharding是有开销的)。

    参考资料:

    http://docs.mongodb.org/v2.6/core/map-reduce/

    http://www.cnblogs.com/loogn/archive/2012/02/09/2344054.html

    相关文章

      网友评论

      • Nora_Jianshu:写 map-reduce 和内置的 aggregation 函数效率不一样的吗?:scream: 真的吗
        1angxi:哈哈,你可以验证一下

      本文标题:Mongodb高级篇-MapReduce

      本文链接:https://www.haomeiwen.com/subject/jlfuqttx.html