StreamingPro使用教程

作者: 祝威廉 | 来源:发表于2016-08-02 10:20 被阅读1613次

准备工作

下载Spark 1.6.2
下载StreamingPro

我们假设你下载的StreamingPro包在/tmp目录下。

复制如下模板

{
  "esToCsv": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.spark.source.SQLSourceCompositor",
        "params": [
          {
            "format": "org.elasticsearch.spark.sql",
            "path": "索引名称",
            "es.nodes": "这里是填写集群地址哈",
            "es.mapping.date.rich": "false"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.JSONTableCompositor",
        "params": [
          {
            "tableName": "table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.SQLCompositor",
        "params": [
          {
            "sql": "select * from table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.output.SQLOutputCompositor",
        "params": [
          {
            "format": "com.databricks.spark.csv",
            "path": "file:///tmp/csv-table1",
            "header": "true",
            "inferSchema": "true"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

假设该文件所在路径是 /tmp/esToCSV.json。

本机运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:// /tmp/esToCSV.json

在集群运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster\
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://clusternameAndPort/tmp/esToCSV.json

网友评论

5282a211c648:你好，问个sparkstreaming的问题：StreamingContext 如何去获取graph。看你的代码中可以获取到，但是通过news StreamingContext 的方式获取不到graph。看源码是个private 变量。所以我要怎么获取graph。

5282a211c648:你好，我想问下关于batch.sql 目前只能配置一条sql语句这个限制，现在还是没开放吗？生产上基于mysql写sql的语句经常要设置timeZone，这种情况有什么好办法吗

祝威廉:@小小火柴_7dbc 你可以写多个batch.sql 配置。timeZone是不是可以在jdbc url链接配置参数解决？另外鼓励大家使用 XQL,把spark 启动为一个服务，然后通过http提交sql脚本过去。

5282a211c648:你好，github上的三步跑起你的第一个应用，用streamingpro-spark-2.0-1.0.0.jar 包跑有问题。错误信息：Exception in thread "main" java.lang.ClassNotFoundException: streaming.core.compositor.spark.source.MockJsonCompositor

json脚本有配置这个：
"testJoinTable": {
"desc": "测试",
"strategy": "streaming.core.strategy.SparkStreamingRefStrategy",
"algorithm": [],
"ref": [],
"compositor": [
{
"name": "streaming.core.compositor.spark.source.MockJsonCompositor",
"params": [
{"a":"3"},
{"a":"4"},
{"a":"5"}
]
}。
能否更新下例子

祝威廉:@小小火柴_7dbc 建议参看github上的中文文档有时间也更新下这边的内容

5282a211c648:你好，问个sparkstreaming的问题：StreamingContext 如何去获取graph。看你的代码中可以获取到，但是通过news StreamingContext 的方式获取不到graph。看源码是个private 变量。所以我要怎么获取graph。
5282a211c648:你好，我想问下关于batch.sql 目前只能配置一条sql语句这个限制，现在还是没开放吗？生产上基于mysql写sql的语句经常要设置timeZone，这种情况有什么好办法吗
祝威廉:@小小火柴_7dbc 你可以写多个batch.sql 配置。timeZone是不是可以在jdbc url链接配置参数解决？另外鼓励大家使用 XQL,把spark 启动为一个服务，然后通过http提交sql脚本过去。
5282a211c648:你好，github上的三步跑起你的第一个应用，用streamingpro-spark-2.0-1.0.0.jar 包跑有问题。错误信息：Exception in thread "main" java.lang.ClassNotFoundException: streaming.core.compositor.spark.source.MockJsonCompositor

json脚本有配置这个：
"testJoinTable": {
"desc": "测试",
"strategy": "streaming.core.strategy.SparkStreamingRefStrategy",
"algorithm": [],
"ref": [],
"compositor": [
{
"name": "streaming.core.compositor.spark.source.MockJsonCompositor",
"params": [
{"a":"3"},
{"a":"4"},
{"a":"5"}
]
}。
能否更新下例子
祝威廉:@小小火柴_7dbc 建议参看github上的中文文档有时间也更新下这边的内容

StreamingPro使用教程

准备工作

复制如下模板

本机运行

在集群运行

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

MLSQL