美文网首页
spark的wordcount

spark的wordcount

作者: 不将就_215a | 来源:发表于2019-05-11 14:52 被阅读0次

import re
rdd = sc.textFile("xx.txt")
resultRdd = rdd.flatMap(lambda line:re.split(" |,|[|]|#|'|:",line)).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)

resultColl = resultRdd.collect()
for line in resultColl:
print(line)

或者
resultRdd = rdd.flatMap(lambda line:re.split(" |,|[|]|#|'|:",line)).countByValue()
不过得到的是一个dict

相关文章

网友评论

      本文标题:spark的wordcount

      本文链接:https://www.haomeiwen.com/subject/zypxaqtx.html