最近做的一个会员数据分析,用Excel处理数据,总会遇到各式各样的问题。
1.CSV格式导入
客服团队从系统导出的数据基本为CSV格式,但是导出数据有错列的问题。数据量太小,就没有在请对方重新导出,而是自己处理。
CSV 空列订单编号 "物流公司 " "物流单号 " "实际支付 " "订单状态 " "收货人姓名 " "用户注册时间 " "下单人手机 " "下单人生日 " "收货人省份 " "收货人城市 " "收货人地区 " "收货地址 " "邮政编码 " "物流方式 " "收货人手机 " "订单创建时间 " "商品标题 " "商品价格 " "商品数量 " "订单留言 " "支付流水号 " "备注 " "产品评分 " "服务专员评分 " "物流评分 " "订单建议 " "UID "
所有字段。
存在问题:
1.分隔符使用的是“,但因为错行的原因,导致多出了一个"。同时有部分记录错开,无法实现整列删除。
2.数据中有很多tab符号(不可见符)。
处理:
1.整理错行数据
2.删除空列
方法:
1.通过筛选,找出错行数据,直接向左拖拽。
2.因为空列较多,一列列的删除太麻烦。但Excel没有列筛选只有行筛选的功能,这里使用的是VBA脚本,脚本来源于Excelhome论坛。实现列筛选。统一删除。
其他问题:不可见符
不可见符(空值无法定位)虽然没有C列没有数据,但定位空值是定位不到的,说明单元格内有不可见符。不同于空格(char(32))“ ”,不可见符是在编辑框中都无法看见的,常见的不可见符有:空字符(char(1))、制表符(tab符char(9))、换行符(char(10))、回车符(char(13))、HTML的空格(char(160))。
解决方法:
1.使用分列:当数据(只有几列)不多的时候,使用分列能将不可见符等去除。
2.当数据过多,最好用VBA脚本,不需要自己编写,网上还有很多现成的轮子可以套用。点击脚本例子
2.日期
问题:
1.实际存储为文本格式,且有其他字符
2.数据颗粒度太细了。不需要精确到秒。
解决:
1.分列:单列数据用分列就可以了,注意需要右侧留出几列空白,防止其他数据被覆盖。
分列导出为YMD格式2.增添年和月两个字段:使用日期函数提取年和月。year()、month()
实际分析:实际分析的时候需要用到注册字段,多以月为基本单位。
1.累计注册会员数
2.最近一个月的注册量
困扰:
因为Excel图表使用的是汇总数据,比如17年1-12月份注册会员数做一个折线图。在原表格上是无法直接出图的,必须要先整理出每个月的汇总数据,并整理成行列的二维数据。使用BDP(BDP个人版免费),可以不需要汇总数据,自动识别日期列。
以前觉得很多图表可以使用Excel制作,不需要花费时间学数据可视化软件(tableau、BDP、power BI)。Excel制作图表灵活度高,但是需要额外汇总,整理格式,适合为PPT配图。如果常规性数据监控使用的可视化,数据规整,非常适合使用tableau(tableau资源分享在后面)。
Excel作图需要汇总数据(一维数据) BDP直接使用原数据,自动识别3.异常值
在注册时间和生日列,出现了异常值。
注册时间:最早时间显示为1970年,这显然是有问题。在问过电商团队后,了解到系统是在16年6月上线的,所以在此之前的注册时间都是有问题。注册时间是系统自动记录的,可能是系统刚上线时功能不健全。
处理方法是:删除16年6月以前数据。数据比较少,对总体影响不大。
生日:由用户自己填写,无法判定真假。有些极端值还是需要删除的,比如出生日期在1900年,2018年都是非常不合理的。
处理方法:不删除数据,在分析年龄构成时,去除年龄在一定阈值外的数据。比如保留16至100岁。
tableau资源:收费软件,可以申请public版(免费),或者在淘宝上购买。
链接: https://pan.baidu.com/s/1SE_HWTkGpD4OiFOsvZfhqA 密码: k2wx
BDP链接:https://me.bdp.cn/home.html BDP
网友评论