美文网首页读书新说谈科技
正在发生的未来——大数据时代进行曲

正在发生的未来——大数据时代进行曲

作者: 风信家 | 来源:发表于2018-08-23 17:40 被阅读1次

    如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。随着大数据时代的推进,大数据工具变得更容易和更方便使用,越来越多的人会掌握这些技能,而这些技能的价值就会相对减少,然后那些先驱者的优势就会逐渐减弱。

    什么是大数据的思维?公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。(考虑到不确定性,应该说是参考答案。)

    大数据,从思维变革开始。

    1、不是随机样本,而是全体数据;

    当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,即:样本=总体。

    采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量增加关系不大。(样本是在合理样本范围内,如果是数量过小的样本的误差结果显然更大。)随机采样,成为现代社会、现代测量领域的主心骨,但这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,本身存在许多固有的缺陷:依赖采样的绝对随机性;细分领域,随机采样结果的错误率大大增加;只能从采样数据中得出事先设计好的问题结果。(大数据的思维并非现在信息社会所酝酿的,而是更早前,正如书中所提到的十九世纪的莫里,但是的确是计算机技术的发展催生了这种思维的可行性。)

    2、不是精确性,而是混杂性;

    对于小数据而言,因为收集的信息量比较少,确保记录下来的数据应尽量精确。而执迷于精确性事信息缺乏时代和模拟时代的产物。在信息领域的时代,任意一个数据点的测量都是至关重要的,否则会导致分析结果的偏差。

    如今,信息时代所掌握的数据库越来越全面,不再担心某个数据点的不利影响,而不是以高昂的代价消除所有的不确定性。值得注意的是,错误性并不是大数据本身固有的,只是我们用来测量记录和交流数据的工具的缺陷,而且因大数据所带来的利益远远大于精确性的提升。(更快地获得发展脉络和轮廓要比严格的精确性重要得多。当然我们也要意识到预测的未来不是确定性的而是可能性,或者换句话说是未来发生什么是种概率,而不是确凿无疑的。)

    大数据的大并非绝对意义上的大,而是相对来说,指所有的数据。据估计只有5%的数字数据时结构化的,能适用于传统的数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,通过接受不精确性,可以打开从未涉足的世界的窗户。

    3、不是因果关系,而是相关关系。

    相关关系的核心是量化两个数据值之间的数理关系,通过识别有用的关联物来帮助我们分析现象,捕捉现在和预测可能的未来,而不是通过揭示其内部运作机制。人类是通过因果关系了解世界,我们在理解和解释世界各种现象时使用的两种基本方法:一种是快速、虚幻的因果关系(直觉常常引导错误);另一种是通过缓慢、有条不紊的因果关系(耗时耗力,经常不可取)。大数据会改变这两种基本方法在我们认识世界时所扮演的角色。

    小结:我们改变我们的操作方法(最根本的是改变我们的固化思维方式),用能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,需要接受混乱和错误的存在。另外,我们应侧重于分析相关关系,而不再寻求每个预测背后的原因。

    大数据,决定企业竞争力。

    规模优势:规模仍然很重要,但是如今重要的是数据的规模,也就是说掌握大量的数据而且要有能力轻松获得更多的数据。所以,随着拥有的数据越来越多,大数据拥有者将大放异彩,因为他们可以把这些数据转化为价值。(占据源头,异曲同工之义。源头是用户,是市场,数据规模来源于用户、来源于市场。而占据大额份额的大多都是大公司,他们有资本,更有资源。)

    灵活优势:聪明而灵活的小公司也能享受到大数据所带来的机遇。没有很多固定资产但是存在感非常强,也可以低成本地传播它们的创新成果。最好的大数据服务都是以创新思维为基础的,所以它们不一定需要大量的原始资本投入。数据可以授权但是不能被占有,数据分析能在运处理平台上快速而且低成本地进行,授权费用则从数据带来的利益中抽取一小部分。(保留意见。这种机遇的确存在,而且很多被创新型小公司善加利用,问题是如何存续?而且这种创新思维的先发优势极其微弱,极其容易受到其他大鳄的侵蚀和挤兑。)

    无可置疑,大数据所带来的商业机遇。

    1、一切皆可量化。数字化带来数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据有本质上的不同。(数据data在拉丁文是已知,也可理解为事实)为了得到可量化的信息,我们要知道如何计量;为了数据化量化了的信息,我们要知道怎么记录计量的结果。计量和记录的需求是数据化的前提。

    2、  世界的本质是由信息构成的——并非原子而是信息才是一切的本源。将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角,它是一种可以渗透到所有生活领域的世界观。(我们可以想象,甚至电影《阿凡达》的场景都可以成为现实。我们自身也是物质体,如果所有都可以转化信息,那么我们也可以将我们自身这种记忆或者精神体的信息转移到任何一种物质,包括非现实世界的物体。)

    3、数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然重要,但还远远不够。因为大部分的数据价值在于它的使用,而不是占有本身。数据的基本用途为信息的收集和处理提供依据。不同于物质性的东西,数据的价值不会随着它的使用而减少(除非某些数据的失效性,当然这种失效并非是时间尺度一刀切),而是可以不断地被处理(非竞争性的特点,个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所损耗。再次联想到世界的本质是由信息构成的,而非物质意义上的原子。信息的无损耗性是否可以代表某种意义上的轮回?)

    大数据隐忧,让数据主宰一切。

    1、过于依赖数据

    我们比想象中更容易受到数据的统治——让数据以良莠参半的方式统治我们。其威胁就是我们可能完全受限于我们的分析结果,即使这个结果理应受到质疑。

    2、个人隐私保护

    在大数据时代,不管是告知于许可、模糊化还是匿名化,这三大隐私保护策略都失效了。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。

    3、个人自由意志的选择

    也许,大数据预测可以为我们提供一个更安全更高效的社会,但是一切否定了我们之所以为人的重要组成部分——自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但也放弃了我们的自由意志。

    大数据掌控,责任与自由并举的信息管理。

    我们在生产和信息交流方式上的变革,必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。

    大数据的有效公正的信息管理非常有必要,仍然探索之中。

    1、  从个人许可到让数据使用者承担责任。

    因为他们比任何人都明白他们将如何利用数据,而且他们也是利用数据潜在价值的最大受益者,理应为自己的行为负责。(配比原则,关键是受益的不确定性很难确保责任的确定性)。

    2、  使用预测分析时考虑个人动因。

    通过大数据,预测人的行为成为一种可能,诱使我们会依据预测的行为而非实际行为对人们进行评定。(这似乎有点类似于生态法则,看着一头穷凶极恶的猛兽将猎物撕碎,我们只能袖手旁观,再让猛兽为自己的行为负责,而不是事先救助猎物。自由的选择的结果,也许是积极的,也许是消极的,无论哪种结果,都为其负责,这是否就是自由的代价?)。

    3、  催生大数据审计员。

    大数据的运作时在一个超出我们正常理解的范围上的。大数据的预测、运算法则和数据库有变成为黑盒子的风险,这个黑盒子不透明、不可解释、不可追踪。为了防止这些情况的发生,大数据需要被监测并保持透明度。大数据审计员这个角色就应运而生了。

    4、  反数据垄断大亨。

    数据之于信息社会就如燃料之于工业社会,是人们进行创新的力量源泉。正因为数据是竞争力的重要资源,更需要为了促进大数据平台上的良性竞争,应出台相关的反垄断条例。(我们时刻暴露在第三眼之下,我们的购物习惯、我们的喜好甚至我们的社交网络等等。而大数据需要各种数据,各种不同来源的数据,他们相互交叉,即使个人隐私隐秘处理也让个人的信息无处遁形。尤其是这些大数据被那些大鳄——拥有海量数据的企业所掌握,所引发的风险可以媲美任何一部科幻灾难片。)

    结束语

    伴随着从核技术到生物工程学其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制。在这一方面,大数据也和其他领域的新技术一样,带来无法彻底解决的问题。另外,它们不断对我们管理世界的方法提出挑战,而我们的任务是要意识到新技术的风险,促进其发展,然后斩获成果。

    相关文章

      网友评论

        本文标题:正在发生的未来——大数据时代进行曲

        本文链接:https://www.haomeiwen.com/subject/sypmiftx.html