美文网首页大数据技术分享
Storm入门(一):编程模型

Storm入门(一):编程模型

作者: code_solve | 来源:发表于2019-06-20 14:08 被阅读1次

    前言

    本文是 storm 入门第一篇,因为 Storm 的本地模式体验极其简单,
    故而我希望第一篇我们先来体验一下 Storm,而不是其他分布式技术那样,
    开门就是架构,简介....

    1 Storm初体验之本地运行

    1.1 下载 Storm Jar 包

    这里我们直接用 Maven 管理,直接在我们项目的 pom.xml 文件下加入:

       <!-- https://mvnrepository.com/artifact/org.apache.storm/storm-core -->
            <dependency>
                <groupId>org.apache.storm</groupId>
                <artifactId>storm-core</artifactId>
                <version>1.2.2</version>
            </dependency>
    

    1.2 创建 Topology

    • 什么是 Topology ?
      Storm 为了方便编程,将 Storm 的程序封装成一个个的 Topology,这个Topology 也就是我们本文的重点 编程模型。(其实质是一个 DAG 有向无环图)

    • Topology 是怎么样的?
      Topology 包含以下几个结构:

      1. 数据 Tuple:在 Storm 中,所有的数据都是以 Tuple 的形式进行传输的
      2. 数据发送者 Spout:这个数据发送只是相对 Storm 本身来说的,Spout 一般从指定的外部数据源读取数据封装成 Tuple,进行数据的发送。
      3. 数据处理组件 Bolt:Spout 的数据会发送到 Bolt,Bolt 就是用来做数据处理的组件,为了提高效率,一般 Bolt 只会处理一些单一的功能,然后会将数据继续往下一个 Bolt发送,形成一个 Bolt 链。
      4. Stream Grouping:在数据从 Spout 到 Bolt 或者 从 Bolt 到 Bolt 的时候可以指定数据的流向规则,这个规则就是 Stream Grouping。
      5. Stream 数据流:从 Spout 发出,到 Bolt 处理完形成的数据通道就是一个数据流,一个Spout 可以发送多个数据流。
    • Topology 如何创建?
      好了,现在我们正式开始编码吧...

      1. 创建 Spout:
      //继承自 BaseRichSpout 
      static class MySpout extends BaseRichSpout {
      
            private Map map;
            private TopologyContext topologyContext;
            private SpoutOutputCollector spoutOutputCollector;
      
            //初始化函数
            public void open(Map map, TopologyContext topologyContext, SpoutOutputCollector spoutOutputCollector) {
                this.map = map;
                this.topologyContext = topologyContext;
                this.spoutOutputCollector = spoutOutputCollector;
            }
      
            //模拟的外部数据
            String[] outData = new String[]{"张三", "李四", "王五"};
            String[] outData2 = new String[]{"12", "13", "22"};
      
            /**
             * 我们可以在这里来模拟从外部获取数据并发送到 bolt
             * 该函数会在 storm 运行期间被循环调用
             */
            public void nextTuple() {
                String name = outData[(int) (Math.random() * 3)];
                String age = outData2[(int) (Math.random() * 3)];
                //将数据封装到 Tuple 里面
                Values v = new Values(name,age);
                // 将数据发送出去
                spoutOutputCollector.emit(v);
      
                //休眠一下,便于观察
                try {
                    Thread.sleep(1000);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            }
      
            /**
             * 数据声明
             * 发送的数据,通过这里的声明 告诉下游,我这个数据是什么
             * 相当于 表中的字段名
             */
            public void declareOutputFields(OutputFieldsDeclarer outputFieldsDeclarer) {
                //这里我们发送的是  姓名 和 年龄,主要顺序不能乱
                outputFieldsDeclarer.declare(new Fields("name","age"));
            }
        }
      
      1. 创建 Bolt
        //继承自 BaseRichBolt
        static class MyBolt extends BaseRichBolt {
      
            private Map stormConf;
            private TopologyContext context;
            private OutputCollector collector;
            //初始化函数
            public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {
                this.stormConf = stormConf;
                this.context = context;
                this.collector = collector;
            }
            // 处理数据  
            public void execute(Tuple input) {
                //获取上游发送的 name 字段
                String name = input.getStringByField("name");
                //获取上游发送的 age 字段
                String age = input.getStringByField("age");
                //这里我们简单的打印一下就好
                
                System.out.println(name + "****"+age);
                // 如果你还要继续往下发送 那么:collector.emit() 就可以
            }
            
            public void declareOutputFields(OutputFieldsDeclarer declarer) {
                    //和 Spout 一样, 如果你还要继续往下发送数据,
                    // 那么你就要在这里声明的发送的数据是什么
                    // 我们这里不往下游发送,所以可以不用写
            }
        }
      
      1. 创建 Topology
        上面我们创建了 Spout 和 Bolt,那么将他们组合起来就是我们的 Topology 了
        //在主程序里面进行组装提交
        public static void main(String[] args) {
            // Topology 的构建者
            TopologyBuilder builder = new TopologyBuilder();
            // 设置 Spout ,并为其命名为 textSpout
            builder.setSpout("textSpout", new MySpout(), 3);
            //设置 Bolt,并为其命名为 MyBolt,
            builder.setBolt("MyBolt", new MyBolt(), 3)
            // 设置其 Stream Grouping 为 shuffleGrouping,并且是从 textSpout 接受数据
            .shuffleGrouping("textSpout");
            // 创建Topology
            StormTopology topology  = builder.createTopology()
            // 创建一个 本地集群
            LocalCluster localCluster = new LocalCluster();
            Config map = new Config();
            map.setNumAckers(1);
            //将 topology   提交到集群运行
            localCluster.submitTopology("test", map, topology  );
        }
      

      如果没有意外,此时运行本程序,你应该就能正常启动 Storm了,然后你在控制台就可以看到如下:


      image.png

      有没有感觉很简单?和我们平时写的本地代码基本没什么区别...

    Storm 计算模型

    上面我们已经体验过 Storm 的本地模式了,虽然我们的代码极其简陋,但是最少让我们了解了 Storm 的编程模型到底是怎么样的了!再怎么复杂的东西,我们也可以从上面这个简陋的代码一步步衍生出来,下面我们看一下下面这幅图


    image.png

    从上面我们可以看到:
    一个水龙头代表一个 Spout,一个闪电代表一个 Bolt,
    Spout 和 Bolt 通过 数据Tuple 的通道建立起了一条条数据流。
    该图可以很好的说明 Storm 的工作模式,
    通过 Spout 和 Bolt 可以构建起各种数据流以满足我们的业务需求。

    你的点赞是对作者最大的支持

    相关文章

      网友评论

        本文标题:Storm入门(一):编程模型

        本文链接:https://www.haomeiwen.com/subject/cifdqctx.html