什么是大数据技术?
是指伴随着大数据的采集、存储、分析和应用的相关技术,是一些列使用非传统的工具来对大量的结构化、半结构化、非机构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
大数据技术整体流程
1.数据采集
2.数据预处理
3.数据存储、管理
4.数据挖掘进行数据分析
5.数据可视化
从技术层面看大数据技术的不同层面
1.数据采集和预处理:
利用ETL工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库和数据集市中,成为联机分析处理(OLAP),数据挖掘的基础。
也可以利用日志采集工具(例如Flume,Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析。
2.数据存储和管理:
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化、非结构化海量数据的存储和管理。
3.数据处理与分析:
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。对分析结果进行可视化呈现,帮助人们更好的理解数据、分析数据。
4.数据安全和隐私保护
在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。
常见的大数据计算模式以及其产品
1.批处理计算
针对大规模数据的批量处理。代表产品MapReduce,Spark等。
2.流计算
针对流数据的实时计算,代表产品有Storm,S4,Flume,Puma,DStream,Supper Mario,银河流数据处理平台等。
3.图计算
针对大规模图结构数据的处理,代表产品有Pregel,GraphX,Giraph,PowerGraph,Hama,GoldenOrb等。
4.查询分析计算
大规模数据的存储管理和查询分析,代表产品有Dremel,Hive,Cassandra,Impala等。
什么是批处理计算?
主要解决针对大规模数据的批量处理。MapReduce是最具代表的大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据处理任务(数据大于1TB)。作为后起之秀Spark,它是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快。使用MR时,数据流从一个稳定的来源进行一系列加工处理后,流出道一个稳定的文件系统(比如HDFS)。而对Spark而言,则使用内存替代HDFS或本地磁盘来存储中间结果,因此Spark比MR要快很多。
什么是流计算?
流数据是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流式而降低,因此必须采用实时计算的方式给出秒级响应。
流计算框架有很多,商业级:IBM InfoSphere Streams和IBM StreamBase。开源级:Tiwtter Storm,Tahoo S4(Simple Scalable Streaming System),Spark Streaming。也有公司为了支持自身业务而开发的框架或者平台,比如:Facebook使用Puma和HBase结合,百度开发了实时流计算系统DStream,淘宝开发了同时流数据实时计算系统银河流数据处理平台。
图计算
在大数据时代,许多大数据都是以大规模图或者网络的形式呈现,如社交网络、传染病传播途径、交通事故对路网的影响等等。
网友评论