美文网首页PowerQuery
【实例】分别统计完成若干门课程的学员数

【实例】分别统计完成若干门课程的学员数

作者: PowerQuery | 来源:发表于2016-06-10 00:20 被阅读167次

    【需求】

    有六门课,需要分别统计完成一门课、完成两门课、完成三门课、完成四门课、完成五门课和完成全部六门课的学员有多少人,具体是哪些学员。要求做成一个报告模板,其他人可重复使用并且不需要写代码和公式。

    【思路一】

    用PowerQuery+数据模型+DAX的EVALUATE返回数据链接表+数据透视表来实现。

    【步骤】

    1.建立PowerQuery查询,引入原始数据并作数据清理;

    2.加载到数据模型;

    3.在Excel2016“数据”标签找到“现有连接”,在连接对话框中切换到“表”,找到数据模型对应的表,打开;

    4.将表加载到新的sheet;

    5.在加载的表中右键,选择“表格”-“编辑DAX”;

    6.在DAX编辑框中输入如下代码:

    EVALUATE
           ADDCOLUMNS(
                      VALUES(Merge1[姓名]),
                      "完成数",
                      CALCULATE(COUNTA(Merge1[姓名]),Merge1[状态]="已完成")
                     )
    

    7.在生成的新表基础上新建一个数据透视表,将“完成数”字段分别拖到行区域和值区域:

    最后结果

    【思路二】(2016年6月13日补充)

    如果要避免使用DAX或链接表,可以借助PowerQuery的分组功能来实现统计每门课程的完成数。基本思路还是先获取一张表,然后在这个表的基础上建立数据透视表:
    1.引用创建数据模型的PowerQuery查询;
    2.筛选出状态为“已完成”的数据;
    3.基于账号(因为这个不会重复)进行分组,对课程名称进行非重复计数,命名为“完成课程数”,然后返回所有行;
    4.展开返回的所有行表格,剔除不需要的列,只保留需要的列(主要是人员部门等属性便于将来万一分析要用到),把课程名称等列删除,因为我们下一步要对数据去重复,便于后续统计计算;
    5.选中所有列,点击“删除重复数据”,确保每个账号只有一条数据;
    6.将这个新查询加载到数据模型;
    7.建立一个新的数据透视表,将刚才新加入模型的表里的“完成课程数”分别加到行字段和值字段,对值字段进行计数。
    得到的结果是一样的:


    最后结果

    【思路三】(2016年9月23日补充)

    利用Calculate()函数的||操作符。

    =CALCULATE(COUNTA([课程名称]),[状态]="已完成",[课程名称]="A"||[课程名称]="A"||[课程名称]="B"||[课程名称]="C"||[课程名称]="D"||[课程名称]="E"||[课程名称]="F"||)
    

    这里||表示“或”(OR),ABCDEF是课程名称,因为这些都是文本,因此要用英文的双引号括起来。最后结果如下:

    结果

    【思路四】(2016年11月10日补充)

    利用ADDCOLUMNS()构造表格来统计。
    先新建一个Measure,目的在于简化后面的代码(这一步不是必须):

     完成课程数: =CALCULATE(DISTINCTCOUNT('班级课程'[课程名称]),FILTER('班级学习报表','班级学习报表'[状态]="已完成"))
    

    然后,再新建一个Measure,代码如下:

    完成任务人数:=CALCULATE(DISTINCTCOUNT([姓名]),FILTER(
    ADDCOLUMNS(
        VALUES('班级学习报表'[姓名]),
        "完成课程数",'班级学习报表'[完成课程数]
    ),
    '班级学习报表'[完成课程数]>=0))
    

    这种方法比较简洁,而且适用场景更多:
    1.如果需要获取分别完成了多少门课程的学员数,只需要将最后一行的">=0"变为“=X”,其中的"X"代表完成了多少门课的学员人数。比如,统计完成一门课的学员数,将“X”替换为“1”即可。

    2.如果想统计至少完成了几门课的学员,则将">=0"中的“0”替换为“X”,“X”代表至少完成的课程门数。比如有些单位给学员发放了一个需要学习的课程清单,要求学员至少完成其中的5门课,则只需要将“>=0”中的“0”替换为“5”。

    3.反过来,想要统计没完成任何课程的学员数,只需要将“>=0”替换为“=BLANK()”。为什么是BLANK()呢?因为我们建立的那个“完成课程数”的Measure计算的是学员学习记录中课程状态是“已完成”的人数,因此,状态不是“已完成”的那些学员在构造的表中,其“完成课程数”是空值,也就是BLANK()。

    【总结】

    因为制作的演示数据并不理想,又不方便展示原始数据,因此上述步骤基本没有图示。
    之前我一直想用DAX来解决,写了7个度量值:

    7个度量值

    代码分别是:

    完成课程计数1:=CALCULATE(COUNTA(Merge1[帐号]),Merge1[状态]="已完成")
    完成1门课:=IF([完成课程计数1]=1,[完成课程计数1])
    完成2门课:=IF([完成课程计数1]=2,[完成课程计数1])
    完成3门课:=IF([完成课程计数1]=3,[完成课程计数1])
    完成4门课:=IF([完成课程计数1]=4,[完成课程计数1])
    完成5门课:=IF([完成课程计数1]=5,[完成课程计数1])
    完成全部任务:=IF([完成课程计数1]=6,[完成课程计数1])
    

    但是自己对DAX还没怎么入门,所以在添加了7个度量值后,依然没有能彻底解决问题:

    7个DAX的结果

    就是我不能自动统计出六种情况分别有多少人。
    于是回头继续啃《微软Excel2013:用PowerPivot建立数据模型》中文版,啃半天上下文和CALCULATE()等函数,还是不得要领。
    在第14章“使用DAX作为查询语言”,作者提到可以用EVALUATE返回DAX作为查询获取的结果表格,然后还可以再将这个表格添加回数据模型进行进一步的计算。于是照猫画虎,终于实现了我想要的效果。
    但我估计纯粹用DAX就可以实现我的目标,只是目前我对DAX理解实在有限,搞不定。继续啃书练习吧,希望早日找到感觉。

    【2016年9月23日添加】
    1.思路三提供了一种利用DAX的方式统计完成课程门数的方法。这里需要注意的是,如果一个Pivot Table中,只有姓名列和完成课程数列,统计方法完全不需要这么复杂。复杂的地方仅仅在于当我添加不同字段到行字段时,完成的课程数都应保持不变。
    2.思路三依然不够简洁。所以应该还有更简洁的方法。
    3.这种简洁的方法是不是可以从unflatten数据表来实现。比如有三个表:姓名表、课程信息表和学习记录表,在三个表之间建立关系,然后用ralated或relatedable之类的filter来实现这个统计任务呢?等找个机会测试下。

    相关文章

      网友评论

      • 袁雷:只用powerpivot试了下,做出的结果,不知道跟您要求是否一致,不能上图,存在自己笔记中了http://fromwiz.com/share/s/1TB1YU3SfQhJ2Kxlp32hGuYO1A-sIX1bxAe42J1fHd2THQPs
        袁雷:@PowerQuery 可以添加qq进一步探讨~364310125
        PowerQuery:@袁雷 貌似不是这样。是有几个人完成了一门课,有几个人完成了两门课,有几个人完成三门课这样子。您模拟的原始数据反映了我用的真实数据的情况。
      • 袁雷:可以分享个原始数据模板,一起帮你研究看有没有简单的方法!
      • PowerQuery:没太明白。我现在是用DAX在数据模型的基础上生成新的链接表,然后在此基础上创建了一个数据透视表来统计六种情况各有多少人完成。如果直接在数据模型上创建数据透视表,将姓名放在行区域,将课程名称的非重复计数放在值区域,可以得到一个包含六种情况的综合表,但是每种情况分别有多少人得自己去手工统计。
      • 麦地蓝天:Hey,“六种情况分别有多少人”,这个需求,可以这样解决:
        PowerPivot做数据源,生成透视后,【值字段设置】会多出【不重复计数】,英文为‘Distinct Count’

      本文标题:【实例】分别统计完成若干门课程的学员数

      本文链接:https://www.haomeiwen.com/subject/epksdttx.html