在spark中
1、lines.map(x=>x.split(" ")).collect 结果一行一个array,x代表每一行
2、lines.flatMap() 结果一个array, Array(hello,hadoop,.....)
flatMap:flatten map 先执行map,后执行flatten(扁平化)
3、lines.map(x=>x.split("\t")(2)) 取出第三个字段的所有值
4、lines.first 取出第一条数据
5、lines.map(x=>x.split("\t")).filter(x=>x.length==6) 过滤
统计上午7到10点搜索过百度影音的客户ID
.filter(x=>x.length==6 && 7<= <10 && kw.contains("百度影音"))
.map(x=>x(1))
6、val tupple=("zahngsan",(10,90))
tupple._1 zhangsan
tupple._2._1 10
tupple._2._2 90
网友评论