美文网首页
2023-05-16 Python pdf2docx 轻松将PD

2023-05-16 Python pdf2docx 轻松将PD

作者: 麦冬花儿 | 来源:发表于2023-05-15 08:48 被阅读0次

    可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。
    pdf2docx功能

    - 解析和创建页面布局
      - 页边距
      - 章节和分栏 (目前最多支持两栏布局)
      - 页眉和页脚 [TODO]
    
    - 解析和创建段落
      - OCR 文本 [TODO] 
      - 水平(从左到右)或竖直(自底向上)方向文本
      - 字体样式例如字体、字号、粗/斜体、颜色
      - 文本样式例如高亮、下划线和删除线
      - 列表样式 [TODO]
      - 外部超链接
      - 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
    
    - 解析和创建图片
      - 内联图片
        - 灰度/RGB/CMYK等颜色空间图片
        - 带有透明通道图片
        - 浮动图片(衬于文字下方)
    
    - 解析和创建表格
      - 边框样式例如宽度和颜色
      - 单元格背景色
      - 合并单元格
      - 单元格垂直文本
      - 隐藏部分边框线的表格
      - 嵌套表格
    
    - 支持多进程转换
    

    pdf2docx同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。
    限制

    - 目前暂不支持扫描PDF文字识别
    - 仅支持从左向右书写的语言(因此不支持阿拉伯语)
    - 不支持旋转的文字
    - 基于规则的解析无法保证100%还原PDF样式
    

    安装

    pip install pdf2docx
    

    案例

    from pdf2docx import parse
    
    pdf_file = '/path/to/sample.pdf'
    docx_file = 'path/to/sample.docx'
    
    # convert pdf to docx
    parse(pdf_file, docx_file)
    
    图片.png

    相关文章

      网友评论

          本文标题:2023-05-16 Python pdf2docx 轻松将PD

          本文链接:https://www.haomeiwen.com/subject/qmsmsdtx.html