美文网首页flink
如何理解 Flink 中的 算子(operator)与链接(ch

如何理解 Flink 中的 算子(operator)与链接(ch

作者: 王小奕 | 来源:发表于2021-04-15 13:44 被阅读0次

    Operators

    Operator 可翻译成算子,即:将一个或多个数据流转换成一个新的数据流的计算过程。用户可以将多个算子组合使用来实现复杂数据流的转换逻辑。

    常见 Operators

    官方支持的数据流转换类型文档

    Map

    DataStream -> DataStream
    接受一个元素,然后生成一个元素。下面的代码将源数据数值加倍生成一个新数据:

    DataStream<Integer> dataStream = //...
    dataStream.map(new MapFunction<Integer, Integer>() {
        @Override
        public Integer map(Integer value) throws Exception {
            return 2 * value;
        }
    });
    

    Filter

    DataStream -> DataStream
    用一个布尔型的函数来评估数据流中的每个元素,如果评估结果为真则保留,否则丢弃。下面的代码过滤出数值为0的元素:

    dataStream.filter(new FilterFunction<Integer>() {
        @Override
        public boolean filter(Integer value) throws Exception {
            return value != 0;
        }
    });
    

    KeyBy

    DataStream → KeyedStream
    逻辑上将一个数据流拆成几个互不相交的分区。拥有相同 key 的记录被分配到同个分区内。内部通过哈希分区的方式实现。区分 key 的方式有多种。下面的代码返回一个 KeyedStream,这个 KeyedStream 可以在将来某个场景提供 keyed state 属性接口。

    dataStream.keyBy(value -> value.getSomeKey()) // Key by field "someKey"
    dataStream.keyBy(value -> value.f0) // Key by the first element of a Tuple
    

    注意:以下类型不能被当成 key

    • 本身是 POJO 类型但没有重写 hashCode() 方法,并且依赖 Object.hashCode() 实现。
    • 是一个包含任意类型的数组

    Aggregations

    KeyedStream → DataStream
    在 keyed data stream 上进行聚合操作。其中 minminBy 的区别是,前者返回具体的值,后者返回该元素。如:

    keyedStream.sum(0);
    keyedStream.sum("key");
    keyedStream.min(0);
    keyedStream.min("key");
    keyedStream.max(0);
    keyedStream.max("key");
    keyedStream.minBy(0);
    keyedStream.minBy("key");
    keyedStream.maxBy(0);
    keyedStream.maxBy("key");
    

    通过上面介绍,想必对 Operators 有了一定了解,就是 Flink 实现了的一系列转换数据的接口,各接口接收的数据源类型不同,处理逻辑不同,产出的数据类型也不同,但都能在数据源上执行一定处理逻辑。
    接下来聊一聊 Chaining。

    Task chaining 和资源组

    在 task 执行过程中,连续执行的几个算子往往会随机分配到不同的线程处理,这增加了线程间交换与缓冲的开销,通过调用链接接口,可以把连续的算子强行安排到同一个线程上处理以提高 task 的执行性能。默认情况下,Flink 会尽可能将多个算子连接起来(如两个连续的 map 转换)。

    当然,Flink 还提供许多细粒度的链接控制 API,需要注意的是,调用这些 API 时必须紧跟在某个 Operator 之后,而不能直接作用于一个数据流,原因是这些 API 都依赖于之前的转换 Operator,例如:

    • someStream.map(...).startNewChain():是允许的,可以开启一个新的链
    • someStream.startNewChain():是不允许的,该 API 未跟在某个 Operator 后面

    注意:用户可以通过调用接口 StreamExecutionEnvironment.disableOperatorChaining() 来禁止整个 job 的链接操作。

    Flink 中的 resource group 其实就是一个 slot,是整个集群的最小调度单位,属于 TaskManagers,每个 TaskManager 所拥有的 slot 数默认为1,在集群启动时,可以通过改变配置 taskmanager.numberOfTaskSlots 来增加,slot 越多,意味着该 TaskManager 能够同时处理的 task 越多。

    通过调用不同的链接接口,我们可以把不同的算子隔离分配到不同的 slots 中:

    开启新链

    接口:startNewChain()
    用例:someStream.filter(...).map(...).startNewChain().map(...);
    解释:开启一个新的链,将接口前后的算子分派到一个独立的 slot 上,这不包括 filter 这个算子,因为他未与 startNewChain()直接相连。

    关闭链接

    接口:disableChaining()
    用例:someStream.map(...).disableChaining();
    解释:由于 Flink 会尽可能将多个 Operator 链接起来,即分配到同个 slot 上处理,如果你想关闭这个机制,除了前面提到的调用StreamExecutionEnvironment.disableOperatorChaining()关闭整个 job 的链接机制之外,还可以在该算子之后调用接口disableChaining()来仅取消链接这个算子。

    设置 slot sharing group

    接口:slotSharingGroup()
    用例:someStream.filter(...).slotSharingGroup("name");
    解释:在 Operator 后调用此接口,可该 Operator 进行分组,同分组内的 Operator 执行时会被 Flink 安排到同一个 slot 中,非本分组内的其他 Operators 将会被分配到其他 slots 中。默认的 slot sharing group 叫“deafult”。

    相关文章

      网友评论

        本文标题:如何理解 Flink 中的 算子(operator)与链接(ch

        本文链接:https://www.haomeiwen.com/subject/tusllltx.html