美文网首页
9.pyspark.sql.WindowSpec

9.pyspark.sql.WindowSpec

作者: 丫丫iii | 来源:发表于2019-01-24 17:24 被阅读0次

    Spark SQL和DataFrames重要的类有:

    • pyspark.sql.SQLContext: DataFrame和SQL方法的主入口
    • pyspark.sql.DataFrame: 将分布式数据集分组到指定列名的数据框中
    • pyspark.sql.Column :DataFrame中的列
    • pyspark.sql.Row: DataFrame数据的行
    • pyspark.sql.HiveContext: 访问Hive数据的主入口
    • pyspark.sql.GroupedData: 由DataFrame.groupBy()创建的聚合方法集
    • pyspark.sql.DataFrameNaFunctions: 处理丢失数据(空数据)的方法
    • pyspark.sql.DataFrameStatFunctions: 统计功能的方法
      -pyspark.sql.functions DataFrame:可用的内置函数
    • pyspark.sql.types: 可用的数据类型列表
    • pyspark.sql.Window: 用于处理窗口函数

    9.pyspark.sql.WindowSpec(jspec):定义分区,排序和边框界的窗口规范。使用Window中的静态方法创建一个WIndowSpec
    9.1.orderBy(*col):定义windowSpec中的排列顺序
    9.2.partitionBy(*col):定义WindowSpec中的分区列。
    9.3.rangeBetween(start,end):定义从开始(包含)到结束(包含)的框边界。start, end都是相对于当前行。 例如,“0”表示“当前行”,而“-1”表示在当前行之前一次,“5”表示当前行之后五次关闭。
    1.start:开始边界(包括)。 如果这是-sys.maxsize(或更低),则该框架是无限的。
    2.end:结束边界(包括)。如果这是sys.maxsize(或更高),则该框架是无限的。
    
    9.4.rowsBetween(start,end):定义从开始(包含)到结束(包含)的框边界。start, end都是相对于当前行。 例如,“0”表示“当前行”,而“-1”表示在当前行之前一次,“5”表示当前行之后五次关闭。
    1.start:开始边界(包括)。 如果这是-sys.maxsize(或更低),则该框架是无限的。
    2.end:结束边界(包括)。如果这是sys.maxsize(或更高),则该框架是无限的。
    

    原文

    相关文章

      网友评论

          本文标题:9.pyspark.sql.WindowSpec

          本文链接:https://www.haomeiwen.com/subject/hzrujqtx.html