thriftpy初体验

作者: resolvewang | 来源:发表于2017-10-11 21:32 被阅读297次

    目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份,但是考虑到这样会让项目维护变得极其困难,所以在重构的使用考虑以基础服务的方式提供情感分析模块。thrift是Facebook开源的一套跨语言服务调用RPC,用它便可以进行某些功能模块的服务化,thriftpy是饿了么开源的thrift协议的纯Python实现。由于它的使用更加符合Python的编码习惯,对Pythoneer更友好,所以在刚接触thrift的时候我选择了后者。

    thriftpyexample中,我们可以看到大量使用demo。首先我们来看一个最简单的例子pingpong

    pingpong.thrift

    service PingService {
        string ping(),
    }
    

    该文件的作用是描述服务接口,形式采用C语言的语法,所有基本类型(如上述文件的string)如下

    bool:布尔类型(true or value),占一个字节
    byte:有符号字节
    i16:16位有符号整型
    i32:32位有符号整型
    i64:64位有符号整型
    double:64位浮点数
    string:未知编码或者二进制的字符串
    

    比如,我定义一个需要带参数的接口,就该这样

    service AargsPingService {
       string ping(1:string ping);
    }
    

    除了同步调用以外,还可以采用异步调用的方式,我们也需要在.thrift文件中进行定义,比如我想定义一个异步调用,且返回内容的方法

    service Sleep {
        oneway void sleep(1: i32 seconds)
    }
    

    可以看到,我们加了关键词oneway

    我们再来看看如何编写thriftpy的服务端代码,还是以最简单的ping为例进行说明
    ping_server.py

    # 导入thriftpy提供的接口
    import thriftpy
    from thriftpy.rpc import make_server
    pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")
    
    # 实现.thrift文件定义的接口
    class Dispatcher(object):
        def ping(self):
            print("ping pong!")
            return 'pong'
    
    def main():
        # 定义监听的端口和服务
        server = make_server(pp_thrift.PingService, Dispatcher(),
                             '127.0.0.1', 6000)
        print("serving...")
        server.serve()
    if __name__ == '__main__':
        main()
    

    如果我们要同时提供多个服务呢?比如PingServiceAargsPingService。这个时候需要建立多个.thrift文件,可以参考multiplexer

    我们再来看看客户端代码怎么写。
    ping_client.py

    import thriftpy
    from thriftpy.rpc import client_context
    # 读入thrift文件,module_name最好与server端保持一致,也可以不保持一致
    pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")
    def main():
        with client_context(pp_thrift.PingService, '127.0.0.1', 6000) as c:
            pong = c.ping()
            print(pong)
    if __name__ == '__main__':
        main()
    

    如果一个服务比较耗时,但是我们需要同步拿到返回结果,那么怎么办?这个时候需要注意客户端调用超时thriftpy的默认超时时间是3秒,我们可以通过修改客户端的socket_timeconnect_time来进行设置

    with client_context(pp_thrift.PingService, '127.0.0.1', 6000, socket_timeout=10 * 1000, connect_timeout=10*1000) as c:


    此外,由于thriftpy默认的server是单进程的,为了充分利用CPU资源,eleme又开源了一个多进程的server gunicorn_thrift。需要单独通过

    pip install gunicorn_thrift

    此外还需要注意一点,在Python3中,只支持 多进程同步模型,也就是需要在gunicorn_config.py修改

    worker_class = "thriftpy_gevent"

    worker_class = "thriftpy_sync"。Python2中是支持协程的。

    相关文章

      网友评论

      • 6ef579403ced:楼主。可以分析一下爱奇艺的登陆吗? 那个有点没搞明白
        resolvewang:...没那个精力啊,请见谅

      本文标题:thriftpy初体验

      本文链接:https://www.haomeiwen.com/subject/reqgyxtx.html