基于MS的数据处理及分析
微软于2010年推出了用于数据清洗和整理的工具 - Excel Power Query,该工具基本上是SQL的可视化工具,通过对存储在excel表中的数据进行模型的搭建来形成新的查询表,这种方式相当于微软提供一套可以通过界面对数据的结构和关联关系进行管理的软件。个人认为是将server sql中的一部分移植到了excel上,实现了难度的降级,从而降低使用者门槛,使原本需要数据库专业知识的操作变为鼠标操作,这对excel继续维持市场份额起到核心竞争力的作用。
微软将Power Query ,Power View ,Power pivot , Power Map 集成到一起推出了 Power BI ,他的Desktop版本是免费使用的,个人用于数据分析效果很好。
基本的处理思路是通过Power Query对数据源进行整合,官方说法是进行建模,通过对数据进行left join 左连接等操作后,形成一张可以用于分析的数据底盘,包含了全面的信息 ,另外在Query之后的Power Pivot具有相对于直接使用Excel分析的优势在于以下几点:
- 可处理超过100万行数据,实际采用的就是数据库引擎
- 使用数据分析表达式 ([DAX])表达式语言编写高级公式,DAX的功能更加全面和丰富,相对于Excel的函数而言
- 可以进行向下钻取,可以与Power View联动,相对于Excel基础的数据透视而言,Pivot更加灵活和智能,可以极大的节约时间。
由Power Query获取数据,进行初步数据清洗和整理,梳理出基本的数据模型和彼此间数据格式,再由Power Pivot进行数据分析,实际上Pivot是整个Power Bi的大脑,地位非常重要。而Pivot实际上相当于传统的数据透视表,根据所需要分析的字段和属性进行数据透视,从而分析出当前数据提示出现什么问题。
网友评论