美文网首页大数据自然科普
我的数据之路 - 缘起

我的数据之路 - 缘起

作者: CN_Douglas | 来源:发表于2019-02-07 21:06 被阅读33次

    因为各种原因,想写点东西聊一聊为什么我对数据这么感兴趣,又是为什么坚信数据的价值仍未被足够开发

    既然要认真聊,首先我觉得应该要先写点世界观,关于我是怎么看待这个世界的。

    缘起 (拉普拉斯妖

    拉普拉斯想象了这样一个无所不能的妖怪:它无比渊博,而又无比聪明。在某一时刻,它观察了一下这个世界,因而知道了这个世界上正在发生的的一切,它知道了所有事物的状态,从每一个微小的原子,到所有的星系。它又知道所有的物理学定律–也就是说,它知道这一时刻所有的“因”,也知道所有的因果之间的必然联系,那么它就可以推测出这些“因”产生的所有的“果”,进而推测出这个世界未来发生的一切事情。——知乎上的解释

    “我们可以把宇宙现在的状态视为其过去的果以及未来的因。如果一个智者能知道某一刻所有自然运动的力和所有自然构成的物件的位置,假如他也能够对这些数据进行分析,那宇宙里最大的物体到最小的粒子的运动都会包含在一条简单公式中。对于这智者来说没有事物会是含糊的,而未来只会像过去般出现在他面前。” —拉普拉斯

    在某种今日仍未知的巧合下,初中时的自己琢磨出了拉普拉斯妖。对宿命的绝望和对生命意义的怀疑,让我颓废了好一阵子。恰是这段颓废和绝望,形成了属于我的,相对自洽的世界观,现在想来十分庆幸有那段经历。
    下面来谈谈我加以改动过后的“道格拉斯妖”(笑)

    某一个时间点上,世界可以被数据表示

    我觉得看这篇文章的大多数人,都认为这个世界可以被拆分为某几种最小粒子,只不过可能还没有找到。
    同时,我们的思维本质上也只是复杂的化学运动,某一时间点上所有人的思想也可以认为是最小粒子的组合(位置和动量)。
    所以,如果我们把世界暂定在某一个时间点上,这个世界中的所有最小粒子的状态都可以被数据表示出来。那么这个数据集其实就是这一时间点上,世界的快照。

    规则可以被公式表示

    无论是宏观还是微观世界,所有的运动都遵循某种规则,这些规则可以表示为一些公式(想想那些物理公式)

    下一个时间点可以被计算

    公式有了,代入的变量有了,那么下一个时间点的世界就理应可以被计算,下下个时间点也可以……那么你的死亡和宇宙的尽头同样可以

    量子力学的加入,引入概率的表达

    如果深入一些讨论,会发现可能最小粒子的位置和动量可能无法准确地得到测量,我们所生活的世界在微观中可能充满了“概率”,那不妨也把位置和动量当作某种分布,比方说我们可以这么表示:

    位置l1和动量m1的概率最高为p1,
    位置l2和动量m2的概率次高为p2,
    ……
    位置ln和动量mn的概率最低为pn。

    由此一来,会发现世界的未来变成了一个巨大的“树”,每一条分支都是一条时间线,都有它自己的概率(实际上就是一个巨大的贝叶斯网络)。哪怕世界的未来真的只有一个(每个节点到下一个节点的概率都是100%),无非是一颗奇怪的,只有一个树枝的树嘛。

    如何活在一个巨大公式里

    如果看了上面的推导,你大概会明白我为什么觉得自己活在一个巨大的公式里。随之而来的问题是,我该如何面对这样的世界。

    无论未来是单一确定的,还是某种概率分布,似乎都和“主观能动性”没什么关系。你想做A还是想做B都是某种化学运动决定的,并不受自己影响多少。那么既然未来根本不受我自由意志(或许都没有自由意志)的影响,此时的努力又有什么意义?

    这里我其实借鉴了一部分先定论的观点:或许未来的概率分布依然确定,但事实上没有任何机器可以超越时间的速度去计算完全精准的未来,也就是说对于我们自己而言,未来虽然确定但并不可知。那不妨先相信未来恰如我们所期望的那样(相信自己就是选民),然后用自己的努力来去证明和实现(用成功来证明他是上帝的选民)

    此外,说未来不完全可知,其实意味着一定可以做到部分可知。那有没有可能在其他人未知的时候,我做到部分预知。如果可以,这就是天大的竞争优势,为什么不去利用呢?

    数据和数学是理解世界最好的办法之一

    不谦虚地讲,数据和数学就是世界的本质,是用来理解世界最客观的工具
    为什么这么说呢,数据可以最客观地描述世界在某一段时间的状态(想想物理题列给你的条件),数学是用来描述这一时间点到下一时间点变化的工具(想想让你头疼的物理公式)。
    除了物理,很多其他东西也完全可以量化,做成一道数学题,这一道数学题计算的是未来。

    比如对于绝大多数App而言,新用户留存总是一个难题,那么能不能算出来哪些用户可能在30天后流失,而那些不会呢?(一定是能啊,不然我为什么提它)
    通过把用户的业务数据和对应的30天后是否留存,喂到神经网络中,就能训练出一个相对有效(我目前能做到94%正确率)的预测工具。它能怎么用呢?想想你们玩得农药和吃鸡,如果在你们快要流失前匹给你们几次神队友,畅快地爽几把;或者在氪金的时候更容易氪出来梦寐以求的纸片人老婆,是不是更有可能留下来再玩几天?再玩几天是不是更可能多掏点钱?

    但互联网行业真的用好它了吗?下一篇就聊聊行业现状

    相关文章

      网友评论

        本文标题:我的数据之路 - 缘起

        本文链接:https://www.haomeiwen.com/subject/cevgsqtx.html