美文网首页我爱编程
《智能时代》读书笔记5:大数据和智能革命的技术挑战

《智能时代》读书笔记5:大数据和智能革命的技术挑战

作者: 一匹蒙古马 | 来源:发表于2018-03-07 15:23 被阅读0次

大数据的数据量大、维度多、数据完备等特点,使得它从收集数据开始,到存储和处理,再到应用,都与过去的数据方法有很大的不同。因此,使用好大数据也需要在技术上和工程上采用与过去不同的方法。

技术的拐点
科学技术的发展并非是均匀的,重大的科技突破常常需要酝酿很长时间,在这段时间里,我发现技术进步是一个缓慢的积累,有人把它称为相对停顿的状态,因为这个阶段一切发展都是平衡的,但是当这些量的积累到一定程度后,科技在段时间内获得单点突破,然后科技全面迸发,这便是拐点。

我们可以从数据的产生、存储、传输和处理四个角度来分析一下大数据形成的技术条件。

  • 数据的产生

    • 大数据的第一个来源是电脑本身

    • 大数据的第二个来源是传感器。

    • 大数据的第三个来源是将那些过去已经存在的,以非数字化形式存储的信息数字化,这个过程开始于2000年左右。

  • 信息的存储

  • 传输的技术

  • 信息的处理

        应用大数据的一个前提条件就是将一个大的计算任务分到很多台便宜的服务器上去做并行计算。
    

数据收集:看似简单的难题
大数据与传统的统计方法相比,在收集数据方面有了很大的不同。
首先,传统的数据方法常常是先有一个目的,然后开始时收集数据。在大数据时代,在收集数据时常常没有这样预先设定的目标,而是先把所有能够收集到的数据收集起来,经过分析后,能够得到什么结论就是什么结论。正是因为在收集数据时没有前提和假设,大数据分析才能给我们带来很多预想不到的惊喜,也才使得大家接的计算机变得聪明了。

在获取数据方面,大数据和传统的统计方法另一个不同点在于,过去我们是通过少量的采样获得所谓具有代表性的数据,这些数据被称为样本。
根据统计学原理,只要样本具有代表性,通过分析这些少量的样本数据,就可以总结出规律性。
但是,我们常常认为具有代表性的数据,可能并不那么具有代表性。

真是世界的情况是,获得足够量的具有代表性的数据远比我们想象的要难得多。

大数据则避免了采样之苦,因为大数据常常是以全集作为样本集。但是怎样收集到全集就是一件很有挑战的事情了,因为不能再采用过去抽样调查的方式了。
那么,聪明的公司会怎样解决收集数据的难题呢?最常见的方法就是绕一个弯路,间接地收集数据,然后利用数据的相关性,导出自己所要知道的信息,但是这条路并不好走。

在现实世界里有一个匪夷所思的现象。一方面,微软、苹果和谷歌这些IT公司,为了挖掘每一个家庭的消费潜力,想尽办法千方百计地要掌握每个家庭客厅的数据。另一方面,拥有这些数据的公司除了统计一下收视率,计算一下可能的广告观众,并没有什么大的作为。从这个现象可以看出,一些公司已经敏锐地看到了数据的价值,而另外一些公司却拿着金饭碗在要饭,这其实反映出两种类型的公司再方法论上的差异。

在收集数据是,我们还需要再一次强调它是在无意间完成的。
数据的收集是一个开放性的话题,不存在唯一的,最佳的方法。但是好的方法一定能够保证数据的全面性(完备性)和不变性。

数据存储的压力和数据显示的难题
目前节约存储设备的技术体现在两个方面,第一类技术就是存储同样的信息占用的空间更小。当然,这不是简简单单的数据压缩。从信息论的角度讲,就是要去除数据的冗余,但是在去除冗余之时,相应的数据读写处理要做改变。
第二类技术涉及到数据安全,在这里所讲的数据安全是指数据不丢失、不损坏。而不是指防止数据被盗。

大数据方面面临的另一个技术难题就是如何标准化数据格式,以便共享。

并行计算和实时处理:并非增加机器那么简单
大数据由于体量大、维度多,处理起来计算量巨大,它的使用效率取决于并行计算的水平。
我们在前面提到了Google的MapReduce和雅虎的Hadoop等工具,它们能够把相当一部分大型计算任务拆分成若干小任务在很多并行的服务器上运算。这确实给大数据处理带来了福音,但是并没有完全解决计算瓶颈问题。
首先,任何一个问题总会有一部分计算是无法并行的,这类计算占比越大,并行处理的效率越低。
另一个影响并行计算效率的因素在于无法保证每个小任务的计算量是相等的。

大数据处理的另一个挑战是对实时性的要求。一些看似简单的操作一到达数据头上就特别费时间。
要解决实时处理大数据的问题,就需要从根本上改变系统设计和算法,而不是增加机器那么简单。

数据挖掘:机器智能的关键
使用大数据,相当于在一对沙子中淘金,不经过处理的原始数据是给不出什么新知识的,大数据能产生的效益在很大程度上取决于使用(在挖掘)数据的水平。

机器学习的过程无一例外是一个不断迭代,不断进步的过程,用机器学习的专业术语来说就是“期望值最大化”(Expectation Maximization)的过程:只要事先定出一个学习的目标,这些算法就会不断地优化模型,让它越来越接近真实地情况。可以说,机器学习训练算法迭代的次数越多,或者通俗地说学习的越深入,得到的数学模型效果越好。因此,同样的数据,同样的算法,采用不同深度的机器学习方法,得到的结果会有所不同。
但是机器学习的算法通常都比较“慢”,用比较专业的术语讲,就是计算复杂度太高,因此随着数据量的增加,计算时间会剧增。

至于Google选择人工神经网络作为机器学习的算法的原因,听上去匪夷所思,细想起来却很有道理-----人工神经网络的核心算法几十年来基本上没有变过。人么从直觉上一般会认为不断改进的算法才是好的,应该采用的,但是在工程上却不然,像Google大脑这样试图解决各种问题(而不是一个特定问题)的大数据机器学习工具,实现起来工作量巨大,一旦实现,就希望能够使用很长时间,因此算法需要稳定,不能三天两头地改进。

数据安全的技术
大数据应用的一个挑战来自对数据安全性的担忧和对隐私的诉求。

数据安全有两层含义,首先是要保证用户的数据不损坏,不丢失。
但是数据安全还有第二层的含义,即要保证数据不会被盗走或者盗用。

当然,比数据集中存放更让业内人士不踏实的是一旦黑客得到多维度的数据,从理论上讲,黑客可以像数据科学家一样对大数据进行分析,那么机密泄露的损失就大得难以估量。

通常人们在方便性和安全性方面会优先考虑方便性,这是人的天性使然。

既然不能够完全把偷盗者挡在外面,就需要有更好的方式来保障信息安全。
科学家和工程师首先想到的是在文件系统和操作系统设计上加以改进。
另一种行之有效的方法恰恰是利用大数据本身的特点,来保护大数据的信息安全。

保护隐私:靠大数据长期挣钱的必要条件
由于大数据具有多维度和全面性的特点,它可以从很多看似支离破碎的信息中完全复原一个人或者一个组织的全貌,并且了解到这个人生活的细节或者组织内部的各种信息。这样就会引发大家对隐私权的担忧。

大众在大数据时代对自己的隐私如此不在意,可能有三个原因。
首先不是清楚大数据按照目前的这个方式发展,最终会严重侵犯个人隐私,因为在过去的技术革命中这不是问题。
其次是抱着侥幸的心理,认为那么多用户数据,怎么可能数据的拥有者或者操作者正好能挖掘到我的隐私,这是因为他们对大数据带来的机器智能不了解,事实上这不需要人工去做人肉搜索,计算机可以自动完成挖掘任务,而且做得非常智能。
最后,很多人觉得,我既不做什么坏事,也不担心行踪被暴露,也不是什么名人怕大家知道什么秘密,那些拥有我的数据的公司即便知道我的隐私,也损害不了我的利益。这种想法实际上是大错特错,因为用户的利益在隐私暴露之后很容易被损害。

为什么必须在技术上保护隐私,而不仅仅是在法律层面考除法来解决侵犯隐私的行为呢?随翻在法律层面保护隐私是必须的,但是光靠法律是解决不了问题的。首先,很多侵犯隐私的行为是个人行为,比如偷窥,很难发现和查处。其次,法律的制定永远落后于案件的发生,尤其是在大陆法系的国家。
一类保护隐私的技术是从收集信息的一开始就对数据进行一些预处理,预处理后的数据保留了原来的特性,使得数据科学家和数据工程师能够处理数据,却“读不懂”数据的内容。
另一类保护隐私的技术是所谓的双向监视。这是一个很新颖的保护隐私的想法,简单地讲就是当使用者看计算机时,计算机也在盯着使用者看。

相关文章

网友评论

    本文标题:《智能时代》读书笔记5:大数据和智能革命的技术挑战

    本文链接:https://www.haomeiwen.com/subject/ziijfftx.html