大数据技术的产生以及发展
谷歌的三篇论文
分布式文件系统 GFS
大数据分布式计算框架 mapreduce
NoSQL数据库系统 BigTable
大数据计算
离线计算——批处理计算(MapReduce、Spark)
实时计算——流式计算 (Storm 、Spark Streaming)
Flink 同时支持离线和实时计算
大数据应用场景
数据分析
数据挖掘
机器学习
大数据技术的发展
搜索引擎时代:
谷歌的GFS系统,将数千台机器上的数万块磁盘统一管理,然后当作一个文件系统,统一存储所有的网页。用这些网页构建搜索引擎、对所有文件进行词频统计,然后根据PageRank算法计算网页排名。
数据仓库时代:
Facebook推出了HIVE,使得可以在Hadoop上进行SQL操作,实现数据统计与分析。
数据挖掘时代:
大数据技术的广泛使用,不仅限于数据分析、还可挖掘出更多的数据价值,进行关联分析等。
机器学习时代:
通过大数据技术,可以将所有的历史数据收集起来,统计其规律,进行预测正在发生的事情。
总结
大数据从搜索引擎到机器学习,发展的思路其实一直未变,就是要发现数据中的规律并为我们所用。
网友评论