Spark DataFrame牛刀小试

作者: fisk | 来源:发表于2016-04-27 16:46 被阅读910次

最近看到Spark强大的DataFrame，默默地献上了鄙人的膝盖，刚开始研究，小有所成，由于按捺不住内心狂撞的小鹿，特在此献丑，希望看到的大神不要觉得小弟幼稚，仅此，跪谢!

本文是以SparkSQL实现的用户年龄划分，数据类型为：

用户年龄age.txt

以age.txt文件存于HDFS下。

需要统计每个年龄段的用户数量，年龄段设置为(20以下,21~25,26~30,31~35,36~40,41~45,46~50,51~55,56~60)。

启动spark-shell:

1.将放在HDFS上的文件构建为DataFrame,有两种方法可用来完成这最为重要的步骤：

a.通过反射：scala提供了通过case class把RDD转化为DataFrame的方法，case class定义了表结构，通过反射的方式读取参数并转换为字段，case class也可以是嵌套的复杂序列或者数组。通过此种方法可将RDD隐式转换为DataFrame，然后再注册为内存表，然后就可以通过SparkSQL操作此表。本文即是以该方法用来创建DataFrame。

b.通过接口自定义schema:该方法首先通过原始的RDD创建RDD的Rows；然后通过StructType匹配Rows里面的结构创建schema；最后通过sqlContext提供的createDataFrame(row,schema)方法来创建DataFrame。

2.接下来我们就在spark-shell命令行一步步执行这一流程：