
大数据时代的综合描述
大数据时代的来临得益于数据的整个链条的进步,这个链条主要包括四个环节包括数据的采集、清洗与存储、清洗与分析、应用四个环节。
数据的采集
收集数据是第一步,毕竟要先有数据才有后续的可能。现在处在一个传感器无处不在的物联网时代:每个汽车里都成百上千的传感器,随时采集汽车的各种信息;人手一 部的智能手机,随时的采集或收集我们的各种信息;街上的摄像头、戴的手环、智能电等等。还有一些可能与个人不直接相关的,比如检测空气质量的,检测森林火灾的传感器等。可以说,所有带传感器、处理器、存储器或联网功能的设备都在无时不刻的收集信息,为数据规模之大打下了基础。
数据的清洗与存储
收集的数据需要有效的存储,主要得益于三点:存储能力的提高、存储价格的下降、存储技术的进步。能力提高,是指以前一个大机器可能只能存储几个kb,而如今一个小U盘都能存储几十个G了。价格下降,相同的容量所需要的成本大幅度降低,以至于无论是个人还是企业都不会特别仔细地考虑存储成本的问题。存储技术的进步,则主要指分布式存储的能力,要知道单台机器就算容量再大,也有一个上限,有的数据太大以至于在单台机器上存储变得不现实,分布式存储技术解决的就是如何把一个很大的数据有效的分发到很多机器上进行存储。
之所以说清洗与存储,是因为一般来说,最原始采集的信息都有些杂乱无章、有错误、无序、或者带着一堆无用和冗余的东西,在存储之前,可能会进行清洗。
数据的清洗与分析
数据的分析技术,除了传统的概率论与统计学知识,更多的指当前流行的机器学习和深度学习技术。即利用各种数学理论、算法知识、以及相应的工程代码能力等,在海量的数据中发现可为人所用的规律。近年以来,层出不穷的新算法新理论,以及硬件的进步,为大数据分析提供了新的能力。如果把数据比作金矿,那么数据分析技术就是采矿的技术,这也是为什么叫“数据挖掘”。
分析技术,需软硬件的进步带来的算力提升为基础。
分析技术里较少提到的是还原业务场景,也就是通常说的业务理解能力。拥有了一大批数据,掌握一大堆技术和理论,同时还要有把两者衔接起来的能力,即以正确的姿势、把正确的工具、应用到正确的数据上。书中的一个例子是,用有限的人力处理纽约市的非法改建事件,那么需要对其火灾隐患的大小进行排序,优先去处理含有巨大的火灾隐患的。调研中发现,某些人通过建筑物外部正在进行砖工这个信息及其它直觉能够判断出这个建筑是违章。但是如何把这个信息加工成一个特征并融入到模型中,就需要强大地业务理解能力了。
应用
采集、存储、分析,都是为了应用。基于座位上的压力传感器采集到的数据,开发地反盗窃模型,用于判断坐在驾驶座上的是不是车主本人。基于海量的用户浏览数据,开发出推荐模型,用于给用户更精准的推荐。基于用户在各处留下的数据,判断他的信用水平,以决定是否给他授信放贷。等等。
应用,是一个策略问题。模型可以给人群的信用水平排序,但决定接收多少,分别如何授信,是用一套人为策略来决定。而这个策略除了依赖模型,还需考察公司战略、市场行情等因素。
应用,也是一个工程问题。任何一个预警系统、推荐系统、审核系统等,都需要运行着后台服务的服务器,需要开发相应的服务,需要可靠的网络传输服务等,而这些都是工程开发的工作。
大数据分析的三个特性
使用全体数据,而不是采样数据,软硬件的提升,带来了强大的存储和分析能力,所以不用再慎重采样,而是可以直接利用全体数据进行分析。
数据杂乱不规整,各式各样的数据采集方式,导致数据类型多样,包含错误数据等。相对来说,传统的数据收集方式是经过严格设计的采样,数据会规整、准确。
重点寻求相关性,而非因果性,数据挖掘容易找到A和B相关,但并不能得到因为A所以B的结论,因果性需要人为的解释,但因果性在实际的应用中并不十分重要。
大数据时代的商机
数据本身:拥有数据相当于拥有金矿,或者说拥有土地而土地中可能分布着金矿。因此,掌握着大量数据的公司,如各大型互联网公司、或各大型传统公司(积攒了海量的历史业务数据),相当于手握蕴含巨大价值的资源。
数据挖掘技术:数据挖掘技术就相当于探测机、挖矿机、提炼机等,能够找到金矿、挖出金矿、从矿石中提炼出金子、并把金子应用到好的地方。是分布式存储、分布式处理、机器学习、深度学习、业务理解、模型部署等理论能力、工程能力、业务能力等多种能力的结合。
创新的业务场景:前文提到还原业务场景,还有一种情况是,有一批数据,目前没有可用的场景,但是聪明的人发现能从这些数据中提取出某些知识和规律,而这些知识和规律能够创造一些业务场景,进而获取价值。
风险与挑战
隐私问题:不像之前的简单的信息采集,如今的信息采集之初,并不能确定后续的使用方式,那就更无法准确告知用户所收集的数据将会应用到何处。因此传统的授权机制将逐步失效,而新的机制还未形成。
信息茧房:像快手、抖音、头条等,用强大的推荐算法,为其用户推荐其感兴趣的内容,这相当于为每个用户量身打造了一个信息茧房,用户能看到的总是自己想看到的,而那些新鲜的、模型判断用户不感兴趣但其实有价值的信息,可能被忽略。这甚至会导致人的认知能力的退化。
滥用问题:正如书中举例,如果有一个模型可以预测人的犯罪概率(利用这个人的家庭信息、教育信息、性格特征、当前生活状况特征、当前身体指标等,建立这么一个模型并非不可能),那么直接对预测值高的人进行干预、监控、甚至直接拘禁,是否合理?答案当然是不合理(如果是温和干预可能是合理的,但假设大家把这种温和干预当作耻辱,这就又相当于惩罚了),人不应该为还未犯下的错埋单。如何在维护每一个人的尊严的同时也最大化整体社会的收益,是一个涉及伦理的复杂问题。
大数据无法解决的问题
当拥有了海量的数据,拥有了强大的分析技术,模型的预测性能惊人,当这种事情发展到极致的时候,好像每一个人喜欢什么、想要什么、接下来要做什么事情都是可以预知的,这对人的自由意志提出了挑战(虽然我本人不认为人有自由意志)。那么人的感性、创造力、灵感等,难道都是可预知甚至可取代的吗?
答案是否定的。大数据事实上只能是一个锦上添花的东西,而永远无法取代人的创造力。在MP3出现之前,大数据只能分析出顾客想要更好音质、更便宜的随身听,而无法预测人们想要MP3。在第一代ipad出现之前,大数据只会显示人们想要性能更强大的PC。在汽车被发明之前,大数据只会告诉商家,人们需要更快的马。真正伟大而划时代的发明,是不依赖于大数据,而依赖于天才的。只有被天才发明出来后,人们才迷上它、需要它,而被发明出来之前,普通人无法想象出它,更不知道自己需要它。
网友评论