美文网首页
《日子》 ApacheBeam 初试WordCount

《日子》 ApacheBeam 初试WordCount

作者: 战神汤姆 | 来源:发表于2017-02-04 16:41 被阅读0次

对机器学习会有很大的帮助,模型简单,易用

Apache Beam 的两大特点

1、将数据的批处理(batch)和流处理(stream)编程范式进行了统一;

2、能够在任何的执行引擎上运行。

它不仅为模型设计、更为执行一系列数据导向的工作流提供了统一的模型。这些工作流包括数据处理、吸收和整合。

新建maven项目

Paste_Image.png

pom.xml加入依赖

<code>
<dependencies>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-core</artifactId>
<version>0.4.0</version>
</dependency>
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-direct-java</artifactId>
<version>0.4.0</version>
</dependency>
</dependencies>
</code>

测试类WordCount.java

<code>
package org.tom;
import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.io.TextIO;
import org.apache.beam.sdk.options.PipelineOptions;
import org.apache.beam.sdk.options.PipelineOptionsFactory;
import org.apache.beam.sdk.transforms.*;
import org.apache.beam.sdk.values.KV;
import org.apache.beam.sdk.values.PCollection;
import java.io.Serializable;
public class WordCount implements Serializable{
private transient Pipeline pipeline = null;
public WordCount() {
PipelineOptions options = PipelineOptionsFactory.create();
options.setJobName("wordcount");
pipeline = Pipeline.create(options);
}
public void transform() {
PCollection<String> collection = pipeline.apply(TextIO.Read.from("file:///d:/tom/beam-test/src/main/resources/word.txt"));
PCollection<String> extractWords = collection.apply("ExtractWords", ParDo.of(new DoFn<String, String>() {
@ProcessElement
public void processElement(ProcessContext c) {
String[] split = c.element().split(" ");
for (String word : split) {
if (!word.isEmpty()) {
c.output(word);
}
}
}
}));
PCollection<KV<String, Long>> pCollection = extractWords.apply(Count.<String>perElement());
PCollection<String> formatResults = pCollection.apply("FormatResults", MapElements.via(new SimpleFunction<KV<String, Long>, String>() {
public String apply(KV<String, Long> input) {
return input.getKey() + ": " + input.getValue();
}
}));
formatResults.apply(TextIO.Write.to("D:\tom\beam-test\src\main\resources\wordcounts"));
}
public void run(){
pipeline.run().waitUntilFinish();
}
public static void main(String[] args) {
WordCount wordCount = new WordCount();
wordCount.transform();
wordCount.run();
}
}
</code>

统计文本\resources\word.txt

<code>
tom
hello
tom
luo
hello
tom
tom
word
word
word
tom
</code>

运行结果

Paste_Image.png

word: 3
luo: 1
tom: 5
hello: 2
结果生成了两个文件,是由于hash分区了

相关文章

  • 《日子》 ApacheBeam 初试WordCount

    对机器学习会有很大的帮助,模型简单,易用 Apache Beam 的两大特点 1、将数据的批处理(batch)和流...

  • Apache Beam编译&运行Demo

    ApacheBeam源码变异 gradle命令学习 常见gradle命令学习: 基于Spark环境运行Beam程序...

  • ApacheBeam:Pipeline

    在 Beam 的世界里,所有的数据处理逻辑都会被抽象成数据流水线(Pipeline)来运行。那么什么是数据流水线呢...

  • ApacheBeam:Transform

    我们一起学习了 Beam 中数据的抽象表达——PCollection。但是仅仅有数据的表达肯定是无法构建一个数据处...

  • ApacheBeam:PCollection

    那么,为什么 Beam 需要 PCollection 这样一个全新的抽象数据结构呢? 我们知道,不同的技术系统有不...

  • ApacheBeam简介

    MapReduce 其实 MapReduce 的架构思想可以从两个方面来看。 一方面,它希望能提供一套简洁的 AP...

  • ApacheBeam编程模型

    Beam 的编程模型 那事不宜迟,我们来看看 Beam 的编程模型到底指的是什么? 简单来说,Beam 的编程模型...

  • 读《从互联到新工业革命》

    这些日子 准备复试的日子比起初试繁杂了许多,如果说准备初试多是体力活的话,准备复试则更多是脑力活。 萦绕在姑娘脑海...

  • 滴!这里有一份考研成绩查询指南,请查收!

    刚刚过去的周末,是研究生初试的日子,结束了两天的奋战,广大研友们终于可以松口气了! 但初试并不代表考研的结束,初试...

  • ApacheBeam:Pipeline I/O

    如何使用 Transform 来封装我们的数据处理逻辑,以及 Beam 是如何将数据处理高度抽象成为 Pipeli...

网友评论

      本文标题:《日子》 ApacheBeam 初试WordCount

      本文链接:https://www.haomeiwen.com/subject/uptsittx.html