所谓数据挖掘(Data mining)一般是指通过算法搜索大数据中有价值的隐藏信息的过程。下文中将举两个个例子来说明这一过程:
人类在进行体外受精时,需要从女性卵巢中收集卵子,这些卵子与伴侣或捐赠者的精子结合,而形成受精卵。受精卵进一步发育会产生胚胎。然而一次人工受精过程中会产生多个胚胎,如何从这些胚胎中选择一部分“最好的胚胎”移植到女性的子宫中,成为一个值得研究的问题。这里的“最好”指的是最有可能存活。
这个选择过程需要依靠胚胎的大约60多种特征,这些特征能够描述描述其形态、卵母细胞、卵泡和精子样品等等。这些特征的数量是如此的庞大,以至于胚胎学家很难同时对这些特征进行评估,并依靠历史数据,得出胚胎是否健康的结论。
为此,在英格兰的一项研究项目中,正在尝试使用机器学习来代替胚胎学家进行选择,并尝试使用已有的历史数据对机器学习模型进行训练,以期进行更有效的胚胎筛选。
每年,新西兰的奶农们都必须做出艰难的决定:需要决定把哪些奶牛留下继续产奶,而把另一些出售给屠宰场。通常情况下,随着储备饲料的减少,牛群中大约1/5的奶牛会在挤奶季节结束时被卖掉。
此时,每头奶牛的繁殖和产奶史都会影响这一决定,同时也包括一些其他因素,例如:年龄(母牛8岁时生产寿命即将结束)、健康问题、产犊困难的历史和不良的性情特征(踢腿或跳墙)等等。
在过去的几年里,有数百万头奶牛的特征属性都被记录下来,而每头奶牛的特征数量高达700个。此时,研究如何使用机器学习技术来寻找成功的农民是如何选择其中的关键特征,成为一项有意义的工作。这项工作并不是帮助农民进行决策,而是告诉农民最好选择哪些特征进行决策。
以上两个例子,都是使用机器学习手段,对大数据中隐藏的有价值信息的挖掘过程。随着互联网和物联网的发展,大数据时代已经来临,如何从大数据中发掘有价值的数据,正被越来越多人关注。
网友评论