美文网首页
准备数据建模

准备数据建模

作者: 竞媒体 | 来源:发表于2020-05-22 11:31 被阅读0次

    检查重复数据、未观测数据和异常数据(离群值)

    重复数据是数据集中出现在不同行,但是仔细检查之后看起来相同的观测数据。

    通常比较完成数据集和运行.distinct()方法后的数据集的数量

    df.count()

    df.distinct().count()

    如果两个数字不同,可以确认有完全重复的数据

    df.dropDuplicates()

    使用.dropDuplicates()将这些重复的行移除

    Spark中的MLlib软件包,该软件包的操作是基于RDD。

    Spark的ML软件包,其操作基于DataFrame。

    spark.ml(三个主要的抽象类:转换器(Transformer)、评估器(Estimator)、管道(Pipeline))

    相关文章

      网友评论

          本文标题:准备数据建模

          本文链接:https://www.haomeiwen.com/subject/iajtahtx.html