美文网首页
spark之旅-4.spark-sql

spark之旅-4.spark-sql

作者: 笨鸡 | 来源:发表于2022-03-01 11:11 被阅读0次

    Spark-SQL

    Spark-SQL,思维导图

    Spark-SQL:
        起点:
            SparkSession
        数据集:
            RDD
            DataFrame
            DataSet
        语法:
            SQL 语法
            DSL 语法
        转化:
            RDD <-> DataFrame :
                        rdd.toDF
                        df.rdd
            RDD <-> DataSet  :
                        rdd.toDS Case 类
                        ds.rdd
            DataFrame<-> DataSet :
                        df.as
                        ds.toDF
        函数:
            SQL 函数
            UDF :
                        Scala spark.udf.register("addName",(x:String)=> "Name:"+x)
                        Java spark.udf().register("addName", (UDF1<String, String>) s -> "name: " + s, DataTypes.StringType);
                        spark.sql("Select addName(name),age from people").show()
            UDAF :
                        UserDefinedAggregateFunction  弱类型   (过时)
                        Aggregator  强类型
            开窗函数
    
        加载和保存:
            加载数据:
                        spark.read.format("…")[.option("…")].load("…")
            保存数据:
                        df.write.format("…")[.option("…")].save("…")
            数据格式:
                        Parquet
                        JSON
                        CSV
                        MySQL
                        Hive (内置与外置):
                            Spark SQL CLI
                            Spark beeline
    

    相关文章

      网友评论

          本文标题:spark之旅-4.spark-sql

          本文链接:https://www.haomeiwen.com/subject/yjedrrtx.html