美文网首页
大数据分析预测就好比占星卜卦?

大数据分析预测就好比占星卜卦?

作者: 拍拍信 | 来源:发表于2018-06-05 17:28 被阅读0次

    导语:

    中国人讲“旁观者清,当局者迷”。 “当局者迷”是因为自己看不清自己,所以我们要把自己的处境悬架起来,当作一面镜子,这就是卦。把自己的状态,自己的处境,让自己成为旁观者来做评判,这个过程就是算卦,其中对未来的展望就是占卜。这与大数据分析预测何其相似,从历史数据提取关键信息,分析其特征表现,预测其未来。

    “行星运行”—寻找规律

    太阳系八大行星绕太阳运行周期数据: 观测数据是行星绕太阳一周所需要的时间(以年为位)和行星离太阳的平均距离(以地球与太阳的平均距离为单位)。

    “仙人指路” – 实践规律

    占卜功能来源于《易经》,从来就是神秘高深,不可测。 而我们从《易经》中了解到,每个卦,每一爻都包含了“象”,“数”,“理”三种含义。举个例子。 我们在算卦时,师傅会占卜人的面相,这就是一个“象”, 而看了哪些位置,花了多少时间,就有了它的“数”,为什么要这样看?所以“理”就出现了。“相面”、“看手相”与“星座”等 “命里”/“性格”论也可以认为是一种基于“总结”的规律实践。

    数据分析与占星卜卦有没有相似之处 ?

    答案是有,都围绕着三个贯通点,观察、寻找特征、应用规律(经验)。

    历史中的数据事故

    1.朝鲜战争: 志愿军的7天攻势

    1950年12月31日,中朝联军发起第五次战役,至1月7日,联合国军已退至三七线南北之平泽、安城、堤川、宁越、三陟一线,战役遂于1月8日结束1951年4月22日,中国人民志愿军发动第五次战役,至29日结束。

    2.辽沈战役:廖耀湘军团覆灭

    为什么那里缴获的短枪与长枪的比例比其它战斗略高?

    为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?

    为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?

    数据分析的四大问题

    (1)数据分析是什么?

    是寻找规律、提炼价值信息,并将分析结果用于决策的过程。

    其中需要经历的过程有确定分析的目的 → 研究的对象 → 可以使用的数据→ 细致分析 → 结论与展示。

    泰坦尼克号事故中什么样的人更易幸存?

    (2)数据分析的基础是什么?

    数据是分析的基础:分析是建立在数据之上,可以使用的 数据量、数据质量、数据的粒度等决定了分析的结果。

    业务是分析的支撑:离开业务解读数据是枯燥的,没有意义的;如下图的示例中,不解释原始表结构与业务逻辑,无法分析。

    (2.1)数据分析的基础 – 数据

      数据:对事物存在与发展变化的描述

      数据收集: 数据时代,记录事情发展变化成为可能

      数据的记录形式: 数据结构

      数据结构的变换:数据处理、统计

      数据的处理: 计算(计算机),所以对数据结构有要求。

    结构化数据:可以用数字或统一的结构表示的信息;

    数据表: 一行为一条观测,一列为一个特征/维度

    非结构化数据:无法用数字或统一的结果表示的信息。

    如:图片、文本、声音

    (3)数据分析的方法

    数据分析的基本流程:定义问题(了解业务) → 收集数据 → 数据检查 → 数据处理 → 数据分析 → 结果展示 → 结果应用。

    检查数据质量,包括缺失、异 常值、分布等

    数据处理,包括填补缺失值、处 理异常值、衍生、标准化等。(泰坦尼克题目中,将Title、Pclass、Parch组合观察可以找到更好的差异)

    (4)数据分析的原则

    明确分析目标:围绕目的进行的分析工作;业务与数据相结合:分析结果最终要在业务上解释与应用,需要与业务结合;用数据说话:深入分析数据的实质,挖据数据内涵,不能  “认为是”,也不能停留在数据表面。

    小问题1:如果一枚硬币连抛10次都是正面,问第11次出现正面的概率是多少?(请在评论区说出你的答案)

    哪个老师的教学质量更好?

    生活中的数据分析:

    (1)在亚马逊上搜算图书《原则》,从而看到的其他图书推荐。

    关联分析:Amzon 100件图书订单,购买《原 则》的有75件,购买《爆裂》的 有60件,同时购买两者的40件。 那么,两本书在被选购时是否可以相互推荐?

    事件 - A:购买《爆裂》;B:购买《原则》

    支持度 :同时购买概率 - 40/100 = 0.4

    置信度 : 购买一个后,再购买另一个的条件概率

    A对B的置信度: 40/60 = 0.67  B对A的置信度: 40/70 = 0.53

    提升度:购买一件对购买另一件的概率提升左右

    A对B的提升度:0.67/0.75 = 0.89

    B对A的提升度:0.53/0.6  = 0.88

    结论: 两本书的购买是互斥的

    小问题:如果把订单总量变为1000 呢?(来评论区说出你的答案)

    (2) 数据分析的应用—大数据杀熟分布

    网友分享:

    他经常通过某网站订某个特定酒店的房间,常年价格在380元-400元。偶然一次,他从前台得知酒店淡季价格在300元上下,他用朋友的账号查询也是300元,但用自己的账号查看还是380元。其他网友也分分晒出自己被宰的经历,大骂企业无良,不少媒体认为大数据是技术走了歪路,建议通过法律制裁。

    由于篇幅有限,本文对大数据分析不再做过多的介绍,欢迎有兴趣的小伙伴通过官网咨询我司相关产品。

    相关文章

      网友评论

          本文标题:大数据分析预测就好比占星卜卦?

          本文链接:https://www.haomeiwen.com/subject/rtdmsftx.html