thriftpy初体验

作者: resolvewang | 来源:发表于2017-10-11 21:32 被阅读297次

目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份,但是考虑到这样会让项目维护变得极其困难,所以在重构的使用考虑以基础服务的方式提供情感分析模块。thrift是Facebook开源的一套跨语言服务调用RPC,用它便可以进行某些功能模块的服务化,thriftpy是饿了么开源的thrift协议的纯Python实现。由于它的使用更加符合Python的编码习惯,对Pythoneer更友好,所以在刚接触thrift的时候我选择了后者。

thriftpyexample中,我们可以看到大量使用demo。首先我们来看一个最简单的例子pingpong

pingpong.thrift

service PingService {
    string ping(),
}

该文件的作用是描述服务接口,形式采用C语言的语法,所有基本类型(如上述文件的string)如下

bool:布尔类型(true or value),占一个字节
byte:有符号字节
i16:16位有符号整型
i32:32位有符号整型
i64:64位有符号整型
double:64位浮点数
string:未知编码或者二进制的字符串

比如,我定义一个需要带参数的接口,就该这样

service AargsPingService {
   string ping(1:string ping);
}

除了同步调用以外,还可以采用异步调用的方式,我们也需要在.thrift文件中进行定义,比如我想定义一个异步调用,且返回内容的方法

service Sleep {
    oneway void sleep(1: i32 seconds)
}

可以看到,我们加了关键词oneway

我们再来看看如何编写thriftpy的服务端代码,还是以最简单的ping为例进行说明
ping_server.py

# 导入thriftpy提供的接口
import thriftpy
from thriftpy.rpc import make_server
pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")

# 实现.thrift文件定义的接口
class Dispatcher(object):
    def ping(self):
        print("ping pong!")
        return 'pong'

def main():
    # 定义监听的端口和服务
    server = make_server(pp_thrift.PingService, Dispatcher(),
                         '127.0.0.1', 6000)
    print("serving...")
    server.serve()
if __name__ == '__main__':
    main()

如果我们要同时提供多个服务呢?比如PingServiceAargsPingService。这个时候需要建立多个.thrift文件,可以参考multiplexer

我们再来看看客户端代码怎么写。
ping_client.py

import thriftpy
from thriftpy.rpc import client_context
# 读入thrift文件,module_name最好与server端保持一致,也可以不保持一致
pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")
def main():
    with client_context(pp_thrift.PingService, '127.0.0.1', 6000) as c:
        pong = c.ping()
        print(pong)
if __name__ == '__main__':
    main()

如果一个服务比较耗时,但是我们需要同步拿到返回结果,那么怎么办?这个时候需要注意客户端调用超时thriftpy的默认超时时间是3秒,我们可以通过修改客户端的socket_timeconnect_time来进行设置

with client_context(pp_thrift.PingService, '127.0.0.1', 6000, socket_timeout=10 * 1000, connect_timeout=10*1000) as c:


此外,由于thriftpy默认的server是单进程的,为了充分利用CPU资源,eleme又开源了一个多进程的server gunicorn_thrift。需要单独通过

pip install gunicorn_thrift

此外还需要注意一点,在Python3中,只支持 多进程同步模型,也就是需要在gunicorn_config.py修改

worker_class = "thriftpy_gevent"

worker_class = "thriftpy_sync"。Python2中是支持协程的。

相关文章

  • thriftpy初体验

    目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相...

  • yii初体验(7-15)

    yii初体验(7)视图 yii初体验(8)模块 yii初体验(9) 小部件widgets yii初体验(10) 前...

  • Python3.11版本使用thriftpy2的问题

    Python3.11于2022年10月24日发布,但目前thriftpy2在Python3.11版本下无法安装,如...

  • thriftpy2客户端报thriftpy2.thrift.TA

    报错: 原因:见官方github上的<#31 (comment)>:原因一般是客户端和服务端的IDL文件不一致

  • 动画篇-layout动画初体验

    动画篇-layout动画初体验 动画篇-layout动画初体验

  • rpc之thriftpy&gunicorn_thrift

    目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相...

  • 劳动主题画报

    一、实践画报(含体验日记) _____初体验(如:记者初体验、医生初体验等) 说明: 1.利用假期亲身体验一项工作...

  • 简约不简单

    初体验

  • 体验

    初体验

  • 2018-07-20

    画画初体验

网友评论

  • 6ef579403ced:楼主。可以分析一下爱奇艺的登陆吗? 那个有点没搞明白
    resolvewang:...没那个精力啊,请见谅

本文标题:thriftpy初体验

本文链接:https://www.haomeiwen.com/subject/reqgyxtx.html