![](https://img.haomeiwen.com/i7691822/86d3eaae902b7e13.png)
安装 python-docx库
pip install python-docx
使用
# coding:utf-8
import re
import docx
file_name = r"document.docx"
doc = docx.Document(file_name)
i = 0
for para in doc.paragraphs:
i += 1
print('---------- 第[%d]页 ------===----' % i)
# print(para.text.strip())
doc_content = para.text.strip()
if len(doc_content) < 20:
continue
else:
print(doc_content)
doc_content = re.subn(' ', '', doc_content)[0]
**读取的结果不用担心跨页的情况,自动成句。
网友评论