在这个大数据驱动的互联网时代,数据尤为重要,企业靠着大数据算法杀熟、靠着数据分析用户需求,实现持久盈利、紧贴市场行情
今天就谈谈一次数据分析的一般流程和常用手段
前提:
1、明确分析目的,不要为了分析而分析,带着问题去分析
2、估一个预期,有预期才能和结果进行对比,结果出来后,是达到预期比较满意,还是说未达到预期有优化空间
一、数据获取
数据获取是数据分析的前提,没有数据何来数据分析一说
线上线下调查
需要的数据量较大的时候,一般都采用线上问卷调研的方式,直接推送用户,让大部分的用户做出客观的评价,涉及到的问题应当在不要让用户觉得侵犯个人隐私的前提下设题
网上获取
下载网上已有数据分析平台出的数据报告、调研报告、统计报表等,大部分都是最新市场、某一新行业、某一细分领域的数据
服务器访问日志
服务器返回的用户操作的记录,用户在产品上的每一步后台服务器都有记录,可以找服务器的负责人要服务器里面的访问数据
数据库
产品的数据库里的数据是现成的数据,可通过技术手段命令行的方式对数据库进行筛选,以便找到有用的数据,也可以通过一些图形化操作的工具对数据库的数据进行筛选,比如php管理工具phpmysdmin他就提供了数据库访问的一种图形化访问操作界面,大大降低了获取数据库内筛选数据的技术门槛
应用程序接口API
数据可以通过应用对外开放的接口API,比如微博的API可以返回给企业,点赞数,浏览量,转发数等等
技术抓取手段
通过爬虫的手段对某些网站的数据进行抓取,某些数据不是为了让去数据分析的,所以得通过一些手段去获取这些数据,
以上几种是一般途径,当然还有很多人有很多的其他途径来获取一些数据,这个还要看个人公司内外的渠道资源
二、数据清洗
数据清洗是对收集到的信息进行一个整理,在对结果不会有直接性、间接性的影响的基础上,对部分不合格数据进行增删改的操作
下面自己造了一条数据作为例子:
昵称:猫不理
用户ID:1234342312
性别:
年龄:153
出生日期:20年2/2日
手机号:13645676789
所在地:北京朝阳区
月收入区间:40亿-80亿
标签:文艺青年、旅行、岛国特产收藏者
缺失值:性别(空)
单条数据缺少的参数,
就要采用相应的处理,如果数据量比较多可以直接删除这一条,这一条不会对结果产生什么影响;如果数据量不是很大,或者说这个字段用处、对结果的影响不是很大,可以根据用户的其他信息,推理出缺失的信息
垃圾信息:年龄(153)
多出现于问卷调查里,对应的处理方式:
1、抛弃这一条数据
2、修改年龄为数据统计的平均值(年龄对于数据分析的结果来说不重要)
3、如果这条数据较为重要,可以在问卷调查前设置题目的时候,采用一个问题两种问法的形式、或限制输入框输入规格
规范化:出生日期(20年2/2日)
数据的格式要规范化,要一致
针对这条数据,出生年月日的格式肯定是不对的,
4、重复记录:一个用户有两条数据
有两条数据的用户,合并两条数据为一条数据、或删除重复的一条数据
特殊值:月收入区间(40亿-80亿)
部分特殊用户的数据会直接影响到结果,月收入区间几十亿,这是赤裸裸的打击,二话不说直接酸酸的给它抛弃
合并数据集:用户调研数据、后天数据库的数据合并在一张数据表内
要对分散在不同表内的数据,采取合并的操作,可减少数据分析过程的的成本
三、数据分析
画像分群
每个人都是一个独立存在的个体,用户画像就是根据某些指标、行为、来将所有某一符合这个条件的用户和所有人分开,并基于各种画像用户的特点,设计产品、优化产品
趋势分析
趋势分析一般用于核心指标的长期跟踪,不断进行对比分析,数据有哪些趋势上的变化,有没有周期性,有没有拐点,并分析背后的内部原因和外部原因
漏斗洞察
整条用户操作流程、业务流程,哪一个步骤的转化率低,哪一个步骤导致用户流失多,分析其原因,究竟是因为出现bug,还是用户体验,还是其他什么原因
行为轨迹分析
按照用户使用产品某一功能的行为轨迹,分析用户场景,找到阻挠用户继续走向下一步的点,并分析其原因,是因为这个按钮放的位置不合适,还是这个信息这一步不该出现,还是用户注意力被页面其他不重要的东西吸引走了,分析其原因
留存分析
每个产品都有自己的留存标准,有的产品就是注册了就是留存,有的产品是进入APP就算留存,根据公司情况制定留存标准,找到留存的最低点点
A/B测试:(曾影响M国竞选总统的一种数据分析方法)
一个问题两个或多个解决方案没有拿定主意,可以用A/B测试测一下,
几种方案全投入使用,分别指定一批用户,跟进使用过程中的数据变动,一段周期后,根据每个方案的市场反馈数据,进行分析,决策
四、验证发现:
警惕下面三种结论的发生
虚假相关
正面案例:
因为5月平均温度比4月高,所以人们更多不 愿意出门,外卖订单量相比四月稍有上升
(温度高、和使用微信的频率没有一毛毛的直接关系)
反面案例:
因为5月平均温度比4月平均温度高, 所以人们每天打开微信的次数变高;
因果倒置
正面案例:
据统计会有20%的人在空闲时间会读电子书
反面案例:
据统计有20%的人因为想看电子书,所以都有空闲时间
沉默数据:注重核心的数据,不要被表面的数据所迷惑
二战期间,美国空军派出去的飞机,回来的一般都所剩无几,飞机成本这么高,这样太浪费资源了,于是就想办法买了一批防弹材料装在飞机上,但是材料有限,每个飞机只能覆盖四分之一的地方,于是美国空军经过大数据分析发现,回来的飞机上中弹最多的地方是机翼,于是把材料装在了机翼上,结果还是不理想,那么应该装在那呢?,——驾驶舱挡板上
驾驶员挡板就是沉默数据,由于被回来的飞机中弹较多的机翼所迷惑了,所以导致没人想起来,驾驶舱才是一架飞机的核心位置,人都不在了,飞机肯定回不来!不能被表面的数据结果所迷惑,应该分析出最深层的需求
五、数据可视化
人们更喜欢看图说话,从而不喜欢长篇大论的报告、文字,
有研究表明,80%的人会记得他们所看到的图像,但只有20%的人记得他们阅读的文字!
在这里介绍几种图表形式有矩形图、扇形图、折线图、热力图、散点图、思维导图、形象图等等
以上内容参考三节课范冰老师讲的《数据分析的五个步骤》,个人笔记,如有侵犯,请联系我删除,
网友评论