计算模式

作者: 转身丶即天涯 | 来源:发表于2019-08-15 16:06 被阅读0次

计算模式
素描光影比较杂的笔记
TCP IP（一）：网络基础知识
【猿传奇 | 4】James Gosling：老骥伏枥，志在千里
云计算应用设计模式
云计算模式
云计算介绍
设计模式-简单工厂设计模式
TCP/IP
云计算的知识梳理

什么是大数据技术？

是指伴随着大数据的采集、存储、分析和应用的相关技术，是一些列使用非传统的工具来对大量的结构化、半结构化、非机构化数据进行处理，从而获得分析和预测结果的一系列数据处理和分析技术。

大数据技术整体流程

1.数据采集
2.数据预处理
3.数据存储、管理
4.数据挖掘进行数据分析
5.数据可视化

从技术层面看大数据技术的不同层面

1.数据采集和预处理：
利用ETL工具将分布的、异构数据源中的数据，如关系数据、平面数据文件等，抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库和数据集市中，成为联机分析处理(OLAP)，数据挖掘的基础。
也可以利用日志采集工具(例如Flume，Kafka等)把实时采集的数据作为流计算系统的输入，进行实时处理分析。

2.数据存储和管理：
利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等，实现对结构化、半结构化、非结构化海量数据的存储和管理。

3.数据处理与分析：
利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析。对分析结果进行可视化呈现，帮助人们更好的理解数据、分析数据。

4.数据安全和隐私保护
在从大数据中挖掘潜在的巨大商业价值和学术价值的同时，构建隐私数据保护体系和数据安全体系，有效保护个人隐私和数据安全。

常见的大数据计算模式以及其产品

1.批处理计算
针对大规模数据的批量处理。代表产品MapReduce,Spark等。

2.流计算
针对流数据的实时计算，代表产品有Storm，S4，Flume，Puma，DStream，Supper Mario，银河流数据处理平台等。

3.图计算
针对大规模图结构数据的处理，代表产品有Pregel，GraphX，Giraph，PowerGraph，Hama，GoldenOrb等。

4.查询分析计算
大规模数据的存储管理和查询分析，代表产品有Dremel，Hive，Cassandra，Impala等。

什么是批处理计算？

主要解决针对大规模数据的批量处理。MapReduce是最具代表的大数据批处理技术，可以并行执行大规模数据处理任务，用于大规模数据处理任务(数据大于1TB)。作为后起之秀Spark，它是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReduce快。使用MR时，数据流从一个稳定的来源进行一系列加工处理后，流出道一个稳定的文件系统(比如HDFS)。而对Spark而言，则使用内存替代HDFS或本地磁盘来存储中间结果，因此Spark比MR要快很多。

什么是流计算？

流数据是指在时间分布和数量上无限的一系列动态数据集合体，数据的价值随着时间的流式而降低，因此必须采用实时计算的方式给出秒级响应。
流计算框架有很多，商业级：IBM InfoSphere Streams和IBM StreamBase。开源级：Tiwtter Storm，Tahoo S4(Simple Scalable Streaming System)，Spark Streaming。也有公司为了支持自身业务而开发的框架或者平台，比如：Facebook使用Puma和HBase结合，百度开发了实时流计算系统DStream，淘宝开发了同时流数据实时计算系统银河流数据处理平台。

图计算

在大数据时代，许多大数据都是以大规模图或者网络的形式呈现，如社交网络、传染病传播途径、交通事故对路网的影响等等。

查询分析计算

网友评论

本文标题：计算模式

本文链接：https://www.haomeiwen.com/subject/ocmzjctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

计算模式

什么是大数据技术？

大数据技术整体流程

从技术层面看大数据技术的不同层面

常见的大数据计算模式以及其产品

什么是批处理计算？

什么是流计算？

图计算

查询分析计算

相关文章

计算模式

素描光影比较杂的笔记

TCP IP（一）：网络基础知识

【猿传奇 | 4】James Gosling：老骥伏枥，志在千里

云计算应用设计模式

云计算模式

云计算介绍

设计模式-简单工厂设计模式

TCP/IP

云计算的知识梳理

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读