storm中worker、executor与task配置
storm中与并行有关的概念有三个,配置并行度时优先考虑顺序为:worker > executor > task
概念理解:
(1)worker是对应独立的JVM进程,一个storm集群默认配置的worker就是default.yaml或者storm.yaml中的supervisor.slots.port。可以看做一个worker就对应一台机器上配置的slot(或者说是slot对应的port),一台物理机器就是一个supervisor(worker)。一个worker进程只为一个topology服务,运行一个topology的子集。
提交topology之后,如果集群有空闲的worker就可以执行,如果没有空闲的worker,就需要等待其他topology释放worker后才可以运行。
实际开发中,先要根据数据量和集群规模确定大致的worker个数。
(2)executor是每个jvm进程下的线程,每个executor只运行一个component的一个或者多个实例,也就是运行一个同一个spout或者bolt的一个或者多个实例。默认一个executor运行一个task实例。
(3)task是每个spout或者bolt的执行单元。在线程运行期间,executor调用task的nextTuple或者exectute函数。
设置方法:
(1)topology级别的设置就是设置worker进程的个数,Config.setNumWorkers(10),设置topology使用10个worker。默认使用1个。
(2)executor个数在topology创建时使用,builder.setBolt("wordcount", new PvBolt, 10),之后若不设置每个executor上的task个数,默认就是一个executor运行一个task,也就是task的个数和executor个数相等。(多少个task就是产生多少个bolt的实例对象)
(3)task个数的设置就是设置每个executor启动几个task实例,通过setNumTasks()来设置,如builder.setBolt("wordsplit", new SplitBolt, 5).setNumTasks(10),这里设置executor个数为5,task实例数为10,5个线程调度10个task实例。
在topology启动运行后,task个数不能改变,但可以用rebalance命令改变exectutor的个数动态调整并行度。
网友评论