美文网首页读书产品经理产品
数据分析的一般流程和常用手段

数据分析的一般流程和常用手段

作者: 毛小驴PM | 来源:发表于2020-05-24 20:38 被阅读0次

    在这个大数据驱动的互联网时代,数据尤为重要,企业靠着大数据算法杀熟、靠着数据分析用户需求,实现持久盈利、紧贴市场行情

    今天就谈谈一次数据分析的一般流程和常用手段

    前提:

    1、明确分析目的,不要为了分析而分析,带着问题去分析

    2、估一个预期,有预期才能和结果进行对比,结果出来后,是达到预期比较满意,还是说未达到预期有优化空间

    一、数据获取

    数据获取是数据分析的前提,没有数据何来数据分析一说

    线上线下调查

    需要的数据量较大的时候,一般都采用线上问卷调研的方式,直接推送用户,让大部分的用户做出客观的评价,涉及到的问题应当在不要让用户觉得侵犯个人隐私的前提下设题

    网上获取

    下载网上已有数据分析平台出的数据报告、调研报告、统计报表等,大部分都是最新市场、某一新行业、某一细分领域的数据

    服务器访问日志

    服务器返回的用户操作的记录,用户在产品上的每一步后台服务器都有记录,可以找服务器的负责人要服务器里面的访问数据

    数据库

    产品的数据库里的数据是现成的数据,可通过技术手段命令行的方式对数据库进行筛选,以便找到有用的数据,也可以通过一些图形化操作的工具对数据库的数据进行筛选,比如php管理工具phpmysdmin他就提供了数据库访问的一种图形化访问操作界面,大大降低了获取数据库内筛选数据的技术门槛

    应用程序接口API

    数据可以通过应用对外开放的接口API,比如微博的API可以返回给企业,点赞数,浏览量,转发数等等

    技术抓取手段

    通过爬虫的手段对某些网站的数据进行抓取,某些数据不是为了让去数据分析的,所以得通过一些手段去获取这些数据,

    以上几种是一般途径,当然还有很多人有很多的其他途径来获取一些数据,这个还要看个人公司内外的渠道资源

    二、数据清洗

    数据清洗是对收集到的信息进行一个整理,在对结果不会有直接性、间接性的影响的基础上,对部分不合格数据进行增删改的操作

    下面自己造了一条数据作为例子:

    昵称:猫不理 

    用户ID:1234342312

    性别:

    年龄:153

    出生日期:20年2/2日

    手机号:13645676789

    所在地:北京朝阳区

    月收入区间:40亿-80亿

    标签:文艺青年、旅行、岛国特产收藏者

    缺失值:性别(空)

    单条数据缺少的参数,

    就要采用相应的处理,如果数据量比较多可以直接删除这一条,这一条不会对结果产生什么影响;如果数据量不是很大,或者说这个字段用处、对结果的影响不是很大,可以根据用户的其他信息,推理出缺失的信息

    垃圾信息:年龄(153)

    多出现于问卷调查里,对应的处理方式:

    1、抛弃这一条数据

    2、修改年龄为数据统计的平均值(年龄对于数据分析的结果来说不重要)

    3、如果这条数据较为重要,可以在问卷调查前设置题目的时候,采用一个问题两种问法的形式、或限制输入框输入规格

    规范化:出生日期(20年2/2日)

    数据的格式要规范化,要一致

    针对这条数据,出生年月日的格式肯定是不对的,

    4、重复记录:一个用户有两条数据

    有两条数据的用户,合并两条数据为一条数据、或删除重复的一条数据

    特殊值:月收入区间(40亿-80亿)

    部分特殊用户的数据会直接影响到结果,月收入区间几十亿,这是赤裸裸的打击,二话不说直接酸酸的给它抛弃

    合并数据集:用户调研数据、后天数据库的数据合并在一张数据表内

    要对分散在不同表内的数据,采取合并的操作,可减少数据分析过程的的成本

    三、数据分析

    画像分群

    每个人都是一个独立存在的个体,用户画像就是根据某些指标、行为、来将所有某一符合这个条件的用户和所有人分开,并基于各种画像用户的特点,设计产品、优化产品

    趋势分析

    趋势分析一般用于核心指标的长期跟踪,不断进行对比分析,数据有哪些趋势上的变化,有没有周期性,有没有拐点,并分析背后的内部原因和外部原因

    漏斗洞察

    整条用户操作流程、业务流程,哪一个步骤的转化率低,哪一个步骤导致用户流失多,分析其原因,究竟是因为出现bug,还是用户体验,还是其他什么原因

    行为轨迹分析

    按照用户使用产品某一功能的行为轨迹,分析用户场景,找到阻挠用户继续走向下一步的点,并分析其原因,是因为这个按钮放的位置不合适,还是这个信息这一步不该出现,还是用户注意力被页面其他不重要的东西吸引走了,分析其原因

    留存分析

    每个产品都有自己的留存标准,有的产品就是注册了就是留存,有的产品是进入APP就算留存,根据公司情况制定留存标准,找到留存的最低点点

    A/B测试:(曾影响M国竞选总统的一种数据分析方法)

    一个问题两个或多个解决方案没有拿定主意,可以用A/B测试测一下,

    几种方案全投入使用,分别指定一批用户,跟进使用过程中的数据变动,一段周期后,根据每个方案的市场反馈数据,进行分析,决策

    四、验证发现:

    警惕下面三种结论的发生

    虚假相关

    正面案例:

    因为5月平均温度比4月高,所以人们更多不 愿意出门,外卖订单量相比四月稍有上升

    (温度高、和使用微信的频率没有一毛毛的直接关系)

    反面案例:

    因为5月平均温度比4月平均温度高, 所以人们每天打开微信的次数变高;

    因果倒置

    正面案例:

    据统计会有20%的人在空闲时间会读电子书

    反面案例:

    据统计有20%的人因为想看电子书,所以都有空闲时间

    沉默数据:注重核心的数据,不要被表面的数据所迷惑

    二战期间,美国空军派出去的飞机,回来的一般都所剩无几,飞机成本这么高,这样太浪费资源了,于是就想办法买了一批防弹材料装在飞机上,但是材料有限,每个飞机只能覆盖四分之一的地方,于是美国空军经过大数据分析发现,回来的飞机上中弹最多的地方是机翼,于是把材料装在了机翼上,结果还是不理想,那么应该装在那呢?,——驾驶舱挡板上

    驾驶员挡板就是沉默数据,由于被回来的飞机中弹较多的机翼所迷惑了,所以导致没人想起来,驾驶舱才是一架飞机的核心位置,人都不在了,飞机肯定回不来!不能被表面的数据结果所迷惑,应该分析出最深层的需求

    五、数据可视化

    人们更喜欢看图说话,从而不喜欢长篇大论的报告、文字,

    有研究表明,80%的人会记得他们所看到的图像,但只有20%的人记得他们阅读的文字!

    在这里介绍几种图表形式有矩形图、扇形图、折线图、热力图、散点图、思维导图、形象图等等

    以上内容参考三节课范冰老师讲的《数据分析的五个步骤》,个人笔记,如有侵犯,请联系我删除,

    相关文章

      网友评论

        本文标题:数据分析的一般流程和常用手段

        本文链接:https://www.haomeiwen.com/subject/qitsahtx.html