读取文本文件创建DataFrame

定义样例类,3个数值映射到数组中的3个元素


这个RDD中存放的都是People对象。
接下来就可以把RDD转换成DataFrame


打印元信息:


每一行都是一个Row对象
DataFrame调用了RDD的collect方法,能够获取到里边的数据。DataFrame中有自身封装好的API。


两者地址相同
通过SparkSession构建DataFrame
使用spark-shell中已经初始化好的SparkSession对象spark生成DataFrame




读取json文件创建DataFrame

使用当中的people.json文件



网友评论