py-elasticsearch的stream_bulk、par

作者: RedB | 来源:发表于2021-04-29 17:13 被阅读0次

py-elasticsearch的stream_bulk、par
R语言绘图002-页面布局par()、layout()、spli
2019-05-07 par函数自学笔记-1
英语词缀【61】
Parce que la femme attend son am
英语高频词 #14 ｜ 2022-10-11
[转]R 绘图参数设置函数par()详解
音视频开发《Basics》
欧那法语分享|在法国生活，一定要学会像法国人一样从容潇洒地写支票
音视频编码相关名词详解

最近的爬虫项目里涉及往ES中大量写入数据，因此做了一些调研。
总而言之，py-elasticsearch库推荐使用helper.bulk相关函数进行批量写入（实际是批量执行，不仅限于写入），而bulk有三个相关函数：

parallel_bulk()：并发批量执行；
streaming_bulk()：流式批量执行；
bulk()：在源码里可以看到，本质上是对streaming_bulk()的封装，返回了统计结果，方便处理。

* 先附上三个函数的代码范例

官方文档：https://elasticsearch-py.readthedocs.io/en/master/helpers.html#example

from elasticsearch.helpers import streaming_bulk, parallel_bulk, bulk, scan
def generate_actions():
    for doc in doc_list:
        yield doc

# 1. parallel_bulk（还可以用类似streaming_bulk的for循环）
deque(parallel_bulk(client=self.es, index=index, doc_type="doc", actions=generate_actions(), chunk_size=3000, thread_count=32), maxlen=0)

# 2. streaming_bulk
for ok, action in streaming_bulk(client=self.es, index=index, doc_type="doc", actions=generate_actions(), max_retries=5):
    pass

# 3. bulk
bulk(client=self.es, doc_type="doc", index=index, actions=generate_actions())