美文网首页
数据分析入门学习之一

数据分析入门学习之一

作者: 巴山哥 | 来源:发表于2017-12-11 23:06 被阅读0次

    数据清理

    最近阅读了《Python共享单车数据分析》,由于一直在学习PowerQuery,因此尝试用它处理一下:

    1下载数据

    共享单车数据文件  密码: mtto

    2数据预览

    csv文件,数据来源于法国,因此第一行有乱码,各列以“;”分隔

    3导入PowerQuery中进行处理

    3.1消除乱码

    参考Power Query爱好者Csv.Document一文中的方法对源文件进行处理,在pq中将导入代码做如下改动:

    let

      源 = Csv.Document(File.Contents("e:\zm\简书\bikes.csv"),

      [Delimiter=",", Columns=1, Encoding=1252, QuoteStyle=QuoteStyle.None])

    in

      源

    其中 Encoding=1252 查自内码表(codepage),几次尝试后得以确定。

    3.2数据拆分、转换、清理

    拆分列,然后提升首行为标题,为了统计分析,须将第一列直接转换为日期格式,结果如下:

    发现系统默认格式为“年/月/日“,而数据源文件的格式为"日/月/年",1月13日,变成了13月1日!因此报错,经咨询,进行如下改动:

    即在更改类型时选择使用区域设置,选择法语(法国)

    在语法上的区别:

    直接将文本转换成日期

    更改的类型1 = Table.TransformColumnTypes(提升的标题,{{"Date", type date}})

    选择区域设置

    根据区域设置更改的类型 = Table.TransformColumnTypes(提升的标题, {{"Date", type date}}, "fr-FR")

    目测有两列数据为空或者是null,通过对列筛选进行判断:

    删除两个空列,自此完成数据清理工作。

    以上是通过双击CSV数据文件进入excel,然后用pq处理,因此要更改导入部分的代码,如果用新建立查询的方法导入csv文件,则更为简单快捷,自动拆分列,再选择好正确的原始文件格式,就可以直接编辑处理而无须更改代码,具体见下图:

    用bing 翻译法语

    Berri 1--贝里1        données non disponibles-数据不可用  Maisonneuve1--没翻译出来

    Côte-Sainte-Catherine--科特迪瓦-圣凯瑟琳    du Parc--的公园  Pierre-Dupuy---皮埃尔

    Rachel-秋

    通过对法语的粗糙翻译,可以推断该文件记录的是各地区每天骑共享单车的人数,数据清理干净后再用透视表之类的工具处理就很方便了!


    数据分析入门之二

    相关文章

      网友评论

          本文标题:数据分析入门学习之一

          本文链接:https://www.haomeiwen.com/subject/nbeiixtx.html