美文网首页
Spark的入门程序WordCount之Java版本

Spark的入门程序WordCount之Java版本

作者: 不积小流_无以成江海 | 来源:发表于2019-03-28 15:54 被阅读0次
    SparkConf conf = new SparkConf().setAppName("word count");
    JavaSparkContext sc = new JavaSparkContext(conf);
    
    // 官方写法
    JavaRDD<String> textFile = sc.textFile("hdfs://...");
    JavaPairRDD<String, Integer> counts = textFile
        .flatMap(s -> Arrays.asList(s.split(" ")).iterator())
        .mapToPair(word -> new Tuple2<>(word, 1))
        .reduceByKey((a, b) -> a + b);
    counts.saveAsTextFile("hdfs://...");
    

    在这个过程中可能会遇到错误:java.lang.ArrayIndexOutOfBoundsException: 10582

    解决办法:在pom文件中添加

    <dependency>
        <groupId>com.thoughtworks.paranamer</groupId>
        <artifactId>paranamer</artifactId>
        <version>2.8</version>
    </dependency>
    

    相关文章

      网友评论

          本文标题:Spark的入门程序WordCount之Java版本

          本文链接:https://www.haomeiwen.com/subject/amzqbqtx.html