美文网首页
mac使用pyspark & spark thrift serv

mac使用pyspark & spark thrift serv

作者: GoddyWu | 来源:发表于2019-03-12 11:52 被阅读0次

    前段时间,做公司bot平台的日志处理,跟着大佬老王同志一起学spark。学了这么久,总算有些技巧分享给大家。网上的入门教程真的很多很多,所以我没写系统写过一门技术的教程,因为我想如果写仅仅会是知识的搬运工和和泥工吧。我只是想分享一些自己使用的小技巧、一些难搜索到的冷知识。熟读https://spark.apache.org/

    mac安装spark

    这里介绍了两种安装方法、三种使用方式,

    python

    对的,一般使用pyspark进行编程,其实只要用pip工具安装就可以了。

    $ pip3 install pyspark
    

    system

    使用homebrew安装,

    $ brew install apache-spark
    

    目录在/usr/local/Cellar/apache-spark,建议大家不要使用子目录的bin文件夹,而是/usr/local/Cellar/apache-spark/2.4.0/libexec里面的,因为好多工具都在sbin目录里面,而且warehouse(存储metadata)会默认生成在你操作的目录里。所以每次操作建议先到这个目录,可以保证数据的一致性,别问我怎么知道的 = - = # 、哼:

    $ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
    

    pyspark使用

    首先,可以使用pycharm构建一个简单的项目,

    准备好文件,
    {"name": "goddy", "age": 23}
    {"name": "wcm", "age": 31}
    

    然后编写一个简单的spark程序,

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession \
            .builder \
            .appName("goddy-test") \
            .getOrCreate()
    
    schema = StructType([
        StructField("name", StringType()),
        StructField("age", IntegerType())
    ])
    
    # 这里路径也可以是./in,但是如果要放到系统的pyspark执行,那要指定绝对路径
    data = spark.read.schema(schema).json('/Users/goddy/Desktop/test-python/test-spark/jianshu/in')
    
    data.printSchema()
    data.show()
    

    然后点击pycharm的运行键就可以了、!

    当然,这个文件也可以在系统的pyspark运行

    $ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
    $ ./bin/spark-submit /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py
    

    或者,我们可以启动spark服务,提交任务给它

    首先,启动spark服务

    # 打开我们使用的目录, 这样就会在此目录生成spark-warehouse
    $ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
    
    # 启动master节点
    $ ./sbin/start-master.sh
    

    此时,用浏览器打开 http://localhost:8080/ ,我们就可以看到spark的管理界面了,从中取到spark master的地址。

    # 同样的目录下,启动slave节点,即工作节点
    $ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077
    
    这时再看一眼管理界面,多了一个工作节点。

    这时再提交任务到指定master

    # 提交任务,注意这里
    $ ./bin/spark-submit --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 
    
    # 如果是分布式的,最终将类似这样,这里我们就用上面的啦。
    $ ./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 520M --executor-memory 520M --executor-cores 1 --num-executors 1 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 
    
    执行时可以观察下管理界面。

    spark thrift server的使用

    使用spark时,要么写spark sql,要么把数据变为Structured dataframe再通过各种如pandas包来处理就好了。当然只用spark sql处理就非常简单了,但是spark sql需要提交spark任务来看到一些结果,如果能类似mysql有cli(command line interface)就好了、! 这时,我就发现了spark thrift server这个神器。
    spark thrift server是分布式查询引擎,使spark sql拥有了JDBC和cli两种交互方式。详细见官网:https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server

    # 启动服务,执行过就不用执行啦。如果忘记有没有启动,可以看下8080端口,或者终端执行jps命令查看运行的java程序
    $ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
    $ ./sbin/start-master.sh
    $ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077
    
    # 启动spark thrift server服务,注意添加资源限制,不然会占用所有资源
    $ ./sbin/start-thriftserver.sh --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 --hiveconf spark.cores.max=1 --hiveconf spark.executor.memory=520M
    

    启动后可以看到它其实作为一个spark job存在的,

    我们可以打开localhost:4040,发现spark job页面多了一个介个
    下面来连接spark thrift server
    # 根据官网来的,别问我为啥、!
    $ ./bin/spark-beeline 
    $ !connect jdbc:hive2://localhost:10000
    
    # 用户名和密码直接回车就好
    
    连接成功如下:

    然后就是跟hive的table一样的操作方式了、!

    实际处理场景中,我们会将hdfs或者s3的数据作为external table,然后使用java连接jdbc接口即jdbc:hive2://localhost:10000,然后使用sql来获取数据。同时也可以通过spark sql来对表做操作。注意,external table是要维护它的partition的。

    相关文章

      网友评论

          本文标题:mac使用pyspark & spark thrift serv

          本文链接:https://www.haomeiwen.com/subject/erqlsqtx.html