文章地址:http://www.haha174.top/article/details/251995
1.大数据实时计算介绍
1.Spark Streaming 其实就是一种spark 提供的对于大数据进行实时计算的一种框架,他的底层其实也是之前提到的spark core 基本的计算模型,还是基于内存的大数据实时计算模型。而且他的底层的组件或者叫做概念其实最核心的还是RDD.只不过,针对于实时计算的特点,在RDD 之上进行了一次封装,叫做DStream .其实 学过spark sql 之后,你理解这种封装就更容易了。之前学习spark sql 是不是也是发现它针对于数据查询这种应用提供了一种基于RDD 至少的全新概念,DataSet 但是其底层还是基于RDD 的。所以RDD 是整个Spark 技术生态中的核心。要学好Spark 在交互式查询,实时计算上的应用技术和框架,首先必须学好spark 核心编程,也就是spark core.
2.实时数据现在是大数据领域里面的一种非常热门的场景和应用,而且技术相当的有难度,应该是比spark core 以及mapReduce 实现的离线处理,以及Hive 和spark sql 可以实现的大数据的交互式查询,比这两种场景都要难的多。
3.现在企业中,以及现在这个世界中,主要的实时数据产生的源头,有哪些呢,最基本的各大网站的实时用户行为日志,还有一些比如说金融系统,实时的舆情监控系统,接收的全部都是实时的金融交易数据,实时的社会上的一些舆论数据如微博等等。
4.一般实时数据都是发送到消息中间件上面去的如kafka。比如网站上的一次点击javascript 脚本就会发送一次ajax 请求到后台的kafka 中去。其实就是作为实时大数据的一种缓冲。否则大数据系统直接处理实时数据,恐怕撑不住。
5.我们编写的大数据处理程序,通常都会去消息中间件实时拉取数据,实时拉取到了数据之后,其实我们自己编写的分布式程序,就会用分布式的方式,来并行处理,实时的大数据,每个节点可能就处理一部分的实时的数据。这样多个节点同时并行的处理,就可以增强我们的大数据实时计算的能力提高处理速度。
6.我们其实要做的其实就是开发这些分布式大数据应用/系统。通常来说我们来说我们都不会自己手动开发基础的分布式实时计算平台/框架,而是使用现成的,优秀的,开源的,框架/平台。比如spark streaming stom. 他们其实就是一种分布式实时计算平台,其进程,可以部署多个节点,从而进行分布式大数据的分布式实时处理。而我们自己编写的基于某种平台的大数据平台的实时计算程序,就会以并行的方式,运行在这些平台之上。
欢迎关注,更多福利
这里写图片描述
网友评论