数据清理
最近阅读了《Python共享单车数据分析》,由于一直在学习PowerQuery,因此尝试用它处理一下:
1下载数据
共享单车数据文件 密码: mtto
2数据预览
csv文件,数据来源于法国,因此第一行有乱码,各列以“;”分隔
3导入PowerQuery中进行处理
3.1消除乱码
参考Power Query爱好者中Csv.Document一文中的方法对源文件进行处理,在pq中将导入代码做如下改动:
let
源 = Csv.Document(File.Contents("e:\zm\简书\bikes.csv"),
[Delimiter=",", Columns=1, Encoding=1252, QuoteStyle=QuoteStyle.None])
in
源
其中 Encoding=1252 查自内码表(codepage),几次尝试后得以确定。
3.2数据拆分、转换、清理
拆分列,然后提升首行为标题,为了统计分析,须将第一列直接转换为日期格式,结果如下:
发现系统默认格式为“年/月/日“,而数据源文件的格式为"日/月/年",1月13日,变成了13月1日!因此报错,经咨询,进行如下改动:
![](https://img.haomeiwen.com/i9474447/dc86e27bd8561ad7.png)
即在更改类型时选择使用区域设置,选择法语(法国)
在语法上的区别:
直接将文本转换成日期
更改的类型1 = Table.TransformColumnTypes(提升的标题,{{"Date", type date}})
选择区域设置
根据区域设置更改的类型 = Table.TransformColumnTypes(提升的标题, {{"Date", type date}}, "fr-FR")
目测有两列数据为空或者是null,通过对列筛选进行判断:
![](https://img.haomeiwen.com/i9474447/b09f59ef544d8ccb.png)
删除两个空列,自此完成数据清理工作。
以上是通过双击CSV数据文件进入excel,然后用pq处理,因此要更改导入部分的代码,如果用新建立查询的方法导入csv文件,则更为简单快捷,自动拆分列,再选择好正确的原始文件格式,就可以直接编辑处理而无须更改代码,具体见下图:
![](https://img.haomeiwen.com/i9474447/321c3da2a280e297.png)
用bing 翻译法语
Berri 1--贝里1 données non disponibles-数据不可用 Maisonneuve1--没翻译出来
Côte-Sainte-Catherine--科特迪瓦-圣凯瑟琳 du Parc--的公园 Pierre-Dupuy---皮埃尔
Rachel-秋
通过对法语的粗糙翻译,可以推断该文件记录的是各地区每天骑共享单车的人数,数据清理干净后再用透视表之类的工具处理就很方便了!
网友评论