美文网首页
flink soruce详解

flink soruce详解

作者: loukey_j | 来源:发表于2019-07-17 21:48 被阅读0次

数据处理的过程基本可以分为三个阶段分别是,数据从来哪里,做什么业务逻辑,落地到哪里去。

flink也如此。

SourceFunction 简介

flink自定义数据源需要实现SourceFunction,内置的SourceFunction实现类有:SocketTextStreamFunction、FromElementsFunction、FlinkKafkaConsumer 等等

SourceFunction 定义了2个方法 run 和cancel 。如下图

run方法的主体就是实现数据的生产逻辑。比如从Redis里面获取数据,或者自己模拟产生数据逻辑。下面会举例说明

cancel方法就是在任务取消的时候调用,作一些状态赋值或者链接关闭之类的。

自定义flink source

首先根据并行度来区分,可分为单并行度(并行度为1)和多并行度的source。单并行度的source之后的算子中不能再通过setParallelism()来改变并行度,多并行度默认同任务的并行度

然后可以根据是否为RichFunction来区分。RichFunction接口中有open,close,getRuntimeContext和setRuntimeContext等方法来获取状态,缓存系统内部数据等

单并行度source  实现  SourceFunction

import java.text.SimpleDateFormat

import java.util.Date

import org.apache.flink.streaming.api.functions.source.SourceFunction

import org.apache.flink.streaming.api.scala._

import org.apache.flink.streaming.api.windowing.time.Time

class NoParalleSource extends SourceFunction[String]{

private  var isrunning =true

  override def run(sourceContext: SourceFunction.SourceContext[String]):Unit = {

while (isrunning){

val time =new SimpleDateFormat("HH:mm:ss").format(new Date())

sourceContext.collect(Thread.currentThread().getId +"_"+time)

Thread.sleep(1000*1)

}

}

override def cancel():Unit = {

isrunning =false

  }

}

object NoParalleSourceTest{

def main(args: Array[String]):Unit = {

val env = StreamExecutionEnvironment.getExecutionEnvironment

    val stream = env.addSource(new NoParalleSource())/*.setParallelism(2)*/

    val reduce = stream.timeWindowAll(Time.seconds(5)).reduce(_+"~"+_)

reduce.print()

env.execute(NoParalleSourceTest.getClass.getName)

}

}

多并行度source 实现  ParallelSourceFunction

import java.text.SimpleDateFormat

import java.util.Date

import org.apache.flink.streaming.api.functions.source.{ParallelSourceFunction, SourceFunction}

import org.apache.flink.streaming.api.scala._

import org.apache.flink.streaming.api.windowing.time.Time

/**

* 不设置并发数,那就任务的默认并发数

*/

class ParalleSource extends  ParallelSourceFunction[String]{

private var isrunning =true

  override def run(sourceContext: SourceFunction.SourceContext[String]):Unit = {

while (isrunning){

val time =new SimpleDateFormat("HH:mm:ss").format(new Date())

sourceContext.collect(Thread.currentThread().getId +"_"+time)

Thread.sleep(1000*1)

}

}

override def cancel():Unit = {

isrunning =false

  }

}

object ParalleSourceTest{

def main(args: Array[String]):Unit = {

val env = StreamExecutionEnvironment.getExecutionEnvironment

    val stream = env.addSource(new ParalleSource()).setParallelism(4)

val reduce = stream.timeWindowAll(Time.seconds(5)).reduce(_+"~"+_)

reduce.print()

env.execute(ParalleSourceTest.getClass.getName)

}

}

rich 单并行度source 实现  RichSourceFunction 

rich 多并行度source 实现  RichParallelSourceFunction

自定义source实现接口的继承关系

相关文章

  • flink soruce详解

    数据处理的过程基本可以分为三个阶段分别是,数据从来哪里,做什么业务逻辑,落地到哪里去。 flink也如此。 Sou...

  • Phoenixcreate 概述

    PHOENIX Create open soruce cross platform system for Game...

  • 一、Flink介绍与环境梳理

    这将是一套完整详细且持续更新的、长期维护的 原创 Flink系列教程、文档,其中会包含商用实例详解、Flink源...

  • Flink源码1-Flink 的集群和Jobmanager启动

    1、Flink RPC 详解 0:5:00 ~ 0:26:00 1、ActorSystem 是管理 Actor生...

  • Flink详解之一--概述

    近段时间,由于公司项目的相关需求,需要对Flink做详细的梳理,我把学习过程整理成Flink详解系列的10篇左右的...

  • flink watermark

    Flink WaterMark 详解 watermark是全局的值,但是每个operator维护一个当前的wate...

  • Flink 原理详解

    Flink 是一个流处理框架,支持流处理和批处理,特点是流处理有限,可容错,可扩展,高吞吐,低延迟。 流处理是处理...

  • Flink WaterMaker详解

    什么是 WaterMaker WaterMaker 水位线在很多地方都有应用,其含义也不尽相同,在Flink中,...

  • Flink WaterMark 详解

    背景 实时计算中,数据时间比较敏感。有eventTime和processTime区分,一般来说eventTime是...

  • Flink JobManager 详解

    JobManager 详解 JobMaster 在实现中,也依赖了很多的服务,其中最重要的是 SchedulerN...

网友评论

      本文标题:flink soruce详解

      本文链接:https://www.haomeiwen.com/subject/tauclctx.html