美文网首页
《python编程自动上手》笔记8 处理PDF 和 Word 文

《python编程自动上手》笔记8 处理PDF 和 Word 文

作者: 原来是酱紫呀 | 来源:发表于2019-01-13 20:48 被阅读0次

20190113 qzd


pdf 和 word 是二进制文件,所以它们比纯文本文件要复杂的多。除了文本,它们还保存了许多字体、颜色和布局信息。

1. pdf 文档

从pdf读取文本内容 和 从已有的文档生成新的pdf:PyPDF2 模块

  • 从 pdf 提取文本
  • 解密 pdf
  • 创建 pdf
  • 拷贝页面
  • 旋转页面
  • 叠加页面
  • 加密pdf

2. word 文档

python-docx 模块

  • 读取 Word 文档
  • 从 .docx 文件中取得完整的文本
  • 设置Paragraph 和Run 对象的样式
  • 创建带有非默认样式的Word 文档
  • Run 属性
  • 写入 Word 文档
  • 添加标题
  • 添加换行符和换页符
  • 添加图像

相关文章

网友评论

      本文标题:《python编程自动上手》笔记8 处理PDF 和 Word 文

      本文链接:https://www.haomeiwen.com/subject/ltaurqtx.html