美文网首页橙子学院-30天专注橙长计划
#30天专注橙长计划#+数据分析探讨+Day 20+数据思维方式

#30天专注橙长计划#+数据分析探讨+Day 20+数据思维方式

作者: 六月的思考 | 来源:发表于2016-09-26 22:28 被阅读23次

    数据很强大,但过度使用,或者确切的说,不恰当的使用,必然会带来弊端。

    作为全球20位顶级大数据分析专家之一的莫妮卡•罗加蒂依据她个人的经验总结了10条数据圈套,结合此,谈谈我的一些感触。

    1、假设数据没有噪音

    准确有效实用的数据是一切分析的基础,但是作为一种资产,数据本身的开采就会很费劲、耗时,数据的偏差来源于采集的方式差异(前端vs后端等)、数据的统一口径(财务vs业务等)、数据处理过程中的偏差(截取时间点和小数点差异)、抓取等等,这些都可能对数据产生影响,影响数据的纯度,干扰后期的分析;

    2、忘记归一化

    在不同的数据往往会带有不同的含义,比如升高170cm和体重52kg,这里的170和52就没有可比性,如果这2者都作为分析中的一个参数,那对最终的结果肯定会有影响。

    归一化是把他们同意到一个层度上,比如0~1。

    3、排除异常点

    干扰数据为什么产生,如果 只是简单将其排除不讨论是不妥的,要做的是先验证,到底是浏览了1000次的用户,还是被抓取了1000次;

    4、包括异常点

    不要让异常点干扰数据判断;

    3和4这个可以用平均财富来作为实例说明,比尔财富5200亿元,二狗存款1000元,拴住存款2000元,大明存款3200元,如果计算这4人的财富均值作为对普通人的估算,显然是不合理的,我们知道比尔是属于异常点;

    5、忽视季节性

    这个其实是外部环境的影响力,如果考虑一个规律的时候,没有考虑当时的时间情况(假日、活动、星期等),得到的结论可能就不准确;’

    6、抛开基数谈增长

    从1到2,和从100到110,前者增长率是100%,后者是10%,但是真实的增长数却分别是1和10,这就有涉及到了数据会展示你想展示的那一面,从而具有迷惑性;

    7、数据呕吐

    不知道什么数据重要的时候,设置太多的数据指标,到最后只能是麻木无感

    8、谎报军情的指标

    数据异常警报取决于你设置的灵敏度,过多的警报,会让你逐步无视各种异常

    7和8强调的是数据的精简,避免虚荣心指标,找到核心数据指标

    9、‘不是在这搜集的’综合征

    如何结合一些其他的数据来发现更好的想法,要以开放的态度,去看待能融合找到机会点

    10、关注噪声

    人类与生俱来的模式识别能力,容易让我们误以为无规律的失误是有规律的,在分析的时候能保持清醒看待,从假设-验证来出发,而非基于或执拗于个人的偏见。


    通过数据,我们能够真正了解发生了什么并能接受新的可能性,这就是数据思维给我带来的认知。

    相关文章

      网友评论

        本文标题:#30天专注橙长计划#+数据分析探讨+Day 20+数据思维方式

        本文链接:https://www.haomeiwen.com/subject/froqyttx.html