Flink SQL 使用入门

作者: AlienPaul | 来源:发表于2020-04-03 11:11 被阅读0次

Flink SQL 使用入门
Flink 最锋利的武器：Flink SQL 入门和实战
使用Flink批处理完成数据比对（对账）一
Flink SQL 工作机制
flink-sql1.9.1 elasticsearch 使用记
2021-01-12
Flink1.10-基于BucketingSink的FileSy
Tlink介绍
Flink SQL 入门指北
【Flink SQL】如何解析和校验 Flink SQL

简介

比起繁杂的流处理和批处理Java API，Flink支持统一的SQL方式来操作流或者批数据，甚至非开发人员都可以编写业务逻辑，极大的简化了开发过程。

引入依赖

注意：需要提供变量scala.binary.version和flink.version的值。本文中代码以Flink 1.10为准。

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-api-scala-bridge_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-table-planner_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>

如果我们需要用到Kafka数据源，需要增加：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka_${scala.binary.version}</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>

如果我们使用json格式接收和发送数据，需要添加以下依赖：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-json</artifactId>
    <version>${flink.version}</version>
    <scope>provided</scope>
</dependency>

创建tableEnv

TableEnv是Flink所有Table操作的基础。TableEnv主要的功能有：

注册数据源和输出端
创建table
执行SQL查询
创建user defined functions(UDF)
在Table和DataStream，DataSet之间转换

TableEnv根据流处理和批处理这两个场景，分为StreamExecutionEnvironment和BatchTableEnvironment。本文主要以流处理场景为中心。

创建StreamExecutionEnvironment的方法：

val env = StreamExecutionEnvironment.getExecutionEnvironment
val tableEnv = StreamTableEnvironment.create(env)

使用代码形式从Kafka数据源端或输出端创建table

Flink SQL将各种数据源统一为table的概念。同样，数据输出端也被认为是table。接下来用户可以通过select语句对数据源table进行数据处理操作，最后使用insert语句将处理后的数据加入到输出端table。

使用代码从数据源端或输出端创建table的方式如下：

tableEnv
  .connect(...)
  .withFormat(...)
  .withSchema(...).createTemporaryTable(...)

其中：

connect：指定数据源端或输出端的具体配置，比如Kafka或者FileSystem的配置
withFormat：指定数据的格式，可以使用Json，Csv或Avro等
withSchema：指定数据的字段信息，比如每个字段的名称和数据类型
createTemporaryTable：创建临时表，需要指定一个临时表名

创建外部数据源Flink官网的参考链接：
https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/connect.html

下面以最常用的Kafka数据源为例说明下它的创建方法。

注意：必须在maven中引入flink-connector-kafka，否则会提示Kafka类找不到。

使用DDL语句的方式从数据源创建table

在这一部分Flink通过SQLcreate table语句的方式，创建出对应的table。

以Kafka数据源端或输出端为例，Flink官网对它详细配置的解释如下：

CREATE TABLE MyUserTable (
  ...
) WITH (
  'connector.type' = 'kafka',       

  'connector.version' = '0.11',     -- required: valid connector versions are
                                    -- "0.8", "0.9", "0.10", "0.11", and "universal"

  'connector.topic' = 'topic_name', -- required: topic name from which the table is read

  'connector.properties.zookeeper.connect' = 'localhost:2181', -- required: specify the ZooKeeper connection string
  'connector.properties.bootstrap.servers' = 'localhost:9092', -- required: specify the Kafka server connection string
  'connector.properties.group.id' = 'testGroup', --optional: required in Kafka consumer, specify consumer group
  'connector.startup-mode' = 'earliest-offset',    -- optional: valid modes are "earliest-offset", 
                                                   -- "latest-offset", "group-offsets", 
                                                   -- or "specific-offsets"

  -- optional: used in case of startup mode with specific offsets
  'connector.specific-offsets' = 'partition:0,offset:42;partition:1,offset:300',

  'connector.sink-partitioner' = '...',  -- optional: output partitioning from Flink's partitions 
                                         -- into Kafka's partitions valid are "fixed" 
                                         -- (each Flink partition ends up in at most one Kafka partition),
                                         -- "round-robin" (a Flink partition is distributed to 
                                         -- Kafka partitions round-robin)
                                         -- "custom" (use a custom FlinkKafkaPartitioner subclass)
  -- optional: used in case of sink partitioner custom
  'connector.sink-partitioner-class' = 'org.mycompany.MyPartitioner',
  
  'format.type' = '...',                 -- required: Kafka connector requires to specify a format,
  ...                                    -- the supported formats are 'csv', 'json' and 'avro'.
                                         -- Please refer to Table Formats section for more details.
)

下面以一个实际的例子说明下具体的用法：

tableEnv.sqlUpdate(
  """
    |create table user_table (
    |`username` string,
    |`password` string,
    |`user_id` string
    |) with (
    |'connector.type' = 'kafka',
    |'connector.version' = 'universal',
    |'connector.topic' = 'history',
    |'connector.properties.zookeeper.connect' = '192.168.100.128:2181',
    |'connector.properties.bootstrap.servers' = '192.168.100.128:9092',
    |'format.type' = 'json'
    |)
    |""".stripMargin)

with子句内容为连接器的配置信息。解释如下：

connector.type：指定连接器的类型为kafka
connector.version：指定连接器的版本。其中universal为通用版本
connector.topic：指定连接kafka的topic名称
connector.properties.zookeeper.connect：指定Kafka集群zookeeper的地址
connector.properties.bootstrap.servers：执行Kafka bootstrap server的地址
format.type：指定数据的格式

综上所述，通过这个语句我们把Kafka映射成为user_table这个表。

使用SQL操作数据并输出

使用Table API的方式处理数据并输出。

// 执行select语句
val resultTable = tableEnv.sqlQuery(s"select username, id from user_table")
// 将resultTable的数据插入到result_table表，数据会流向result_table对应的外部系统
resultTable.InsertInto("result_table")

除此之外还有一种方式：使用insert语句输出数据。

tableEnv.sqlUpdate("insert into result_table select username, id from user_table")

参考文献

Flink SQL 连接外部系统：https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/connect.html

Flink SQL create 语句：https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/sql/create.html

Flink SQL 使用入门
简介比起繁杂的流处理和批处理Java API，Flink支持统一的SQL方式来操作流或者批数据，甚至非开发人员都...
Flink 最锋利的武器：Flink SQL 入门和实战
[TOC] 一、Flink SQL 背景 Flink SQL 是 Flink 实时计算为简化计算模型，降低用户使用...
使用Flink批处理完成数据比对（对账）一
看了几天flink，刚入门。简单说下对flink的感受，flink有4层（有些说3层，将Table API和SQL...
Flink SQL 工作机制
[TOC] Flink SQL Architecture How Flink SQL Works? Flink S...
flink-sql1.9.1 elasticsearch 使用记
当前测试FLINK版本是1.9.1 RELEASE 1. 使用FLINK SQL描述如下： CREATE TABL...
2021-01-12
计划 hive , flink sql, flink demo 实际 FLINK SQL栏目https://www...
Flink1.10-基于BucketingSink的FileSy
Flink1.10的SQL支持FileSystem的SQL Connector。使用语法如下: 但是官方提供的这种...
Tlink介绍
Test Flink Streaming SQL 本地执行flink streaming SQL快速进行验证，不依...
Flink SQL 入门指北
1. Overview 本文主要来自官网，旨在整理处 Flink SQL 的基本语法和使用，基础向。 2. API...
【Flink SQL】如何解析和校验 Flink SQL
1.flink sql 解析方法1：直接创建 flink sql parser 解析多行 sql 方法2：通过 ...