检查重复数据、未观测数据和异常数据(离群值)
重复数据是数据集中出现在不同行,但是仔细检查之后看起来相同的观测数据。
通常比较完成数据集和运行.distinct()方法后的数据集的数量
df.count()
df.distinct().count()
如果两个数字不同,可以确认有完全重复的数据
df.dropDuplicates()
使用.dropDuplicates()将这些重复的行移除
Spark中的MLlib软件包,该软件包的操作是基于RDD。
Spark的ML软件包,其操作基于DataFrame。
spark.ml(三个主要的抽象类:转换器(Transformer)、评估器(Estimator)、管道(Pipeline))
网友评论