美文网首页
项目简介

项目简介

作者: PigPIgAutumn | 来源:发表于2018-03-14 17:08 被阅读0次

这个项目是基于spark streaming的日志分析系统,每分钟提交一次job,统计一分钟内的日志信息,同时也需要统计15分支内的异常ip信息.下面就来介绍下什么是spark streaming吧.

spark streaming

以下是摘抄自<<spark快速大数据分析>>的原文:

和spark基于RDD的概念很相似, spark streaming使用离散化流(discretized stream)作为抽象表示, 叫做DStream. DStream是随时间推移而收到的数据的序列. 在内部, 每个时间区间收到的数据都作为RDD存在,而DStream是由这些RDD所组成的序列.DStream可以从各种输入源创建, 比如flume, kafka或者HDFS. 创建出来的DStream支持两种操作(action), 一种是转化操作(transformation), 会生成一个心得DStream, 另一种是输出操作(output operation), 可以把数据写入外部系统中. DStream提供了许多与RDD所支持的操作相类似的操作,还增加与时间相关的新操作,比如滑动窗口.

很明显,spark streaming是用来编写实时流式的计算模块,同时提供了一定的容错机制,保证了7 * 24小时不间断运行.

DStream

  • spark的运算基于RDD,而spark streaming的运算基于DStream.
  • DStream其实就是封装了一组RDD序列的上层表示,这些RDD中的数据就是在开发者规定的窗口大小内,从输入源中获取的数据,这个窗口大小可以是1s,也可以是10s, 1分钟, 输入源可以是kafka, flume等.
  • spark streaming会按照窗口大小, 一组一组地提交计算job到集群上运算.

相关文章

  • 《做自己的精明投资人,优势跑道等你来!》分享\培训项目介绍

    目录 一、项目简介宣传海报 二、项目方案简介 三、个人简介 【一、简介宣传海报】 【二、项目方案简介】 一、背景:...

  • 项目简介

    这个项目是基于spark streaming的日志分析系统,每分钟提交一次job,统计一分钟内的日志信息,同时也需...

  • 项目简介

    登录 --- * 双向验证 * ajax提交表单(CSRF攻击) 注册 --- * 手机号和邮箱的验证 * 发送短...

  • 项目简介

    登陆 --- *双向验证数据 *ajax 提交表单(CSRF攻击) 注册 --- *手机号和邮箱的验证 *发送短信...

  • 项目简介

    登录 --- *双向验证数据 --

  • Deb打包教程

    部署-V1.0.0 安全带 项目手册 1.项目简介2.项目部署3.联系方式 一、项目简介 1.项目简介 二、项目部...

  • EOS项目简介

    项目介绍 EOS是Block.One公司开发的一款超高性能的类操作系统区块链,其设计目标是: 支持大量用户,可能是...

  • Talko项目简介

    Talko 是一个线上英语学习公众号,项目由《芒果科技》发起,吾心橙科技 参与共同合作开发的项目 项目测试地址: ...

  • vite项目简介

    Vite 是一个通用的去中心化应用平台,在兼顾安全性的同时,满足了工业级应用对高吞吐、低延迟和扩展性的要求。 Vi...

  • Loom项目简介

    Loom简介 Loom,下一代区块链平台,为大型在线游戏和社交应用而生 官网地址:https://loomx.io...

网友评论

      本文标题:项目简介

      本文链接:https://www.haomeiwen.com/subject/yeofqftx.html