美文网首页
Markdown文件批量转PDF的Python脚本

Markdown文件批量转PDF的Python脚本

作者: 我只要喝点果粒橙 | 来源:发表于2022-09-01 22:24 被阅读0次

    Markdown文件批量转PDF

    Typora提供了单文件的PDF转换功能,但没有把这个功能集成到命令行里,因此对于需要同时转换多个markdown文件时就比较麻烦了——因此这个小脚本主要支持批量转换MarkdownPDF的功能:smile:

    1.所需工具pandoc、wkhtmltopdf

    • wkhtmltopdf——是一个使用 Qt WebKit 引擎做渲染的,能够把html 文档转换成 pdf 文档 或 图片(image) 的命令行工具。(强调一下:是 “命令行工具”

      1. 【下载请点击这里】 【http://wkhtmltopdf.org/downloads.html】
      2. 设置环境变量
      3. 通过命令行: wkhtmltopdf -V检验是否安装成功
    • Pandoc——是一个由 John MacFarlane 开发的通用文档转换工具,可以支持大量标记语言之间的格式转换,例如 Markdown 、Microsoft Word、PowerPoint、 Jupyter Notebook、HTML、PDF、LaTeX、Wiki、EPUB 格式之间的相互转换。官方称之为该领域中的“瑞士军刀”,并且给出了一个格式转换的示意图。

      Pandoc 可以自动解析 Markdown 文件里的图片链接,所以不论是本地存储的图片,还是图床上的图片,都可以正确转换并且显示到 pdf 文件里。

    2.文档

    采用之前很火”程序员菜谱”,其项目结构为多层次的文件夹和markdown文件组成。

    E:.
    ├─.github
    │  └─workflows
    ├─dishes
    │  ├─braised
    │  │  └─红烧肉
    │  ├─breakfast
    │  ├─condiment
    │  ├─dessert
    │  │  ├─提拉米苏
    │  │  └─烤蛋挞
    │  ├─drink
    │  │  └─百香果橙子特调
    │  │      └─imgs
    │  ├─home-cooking
    │  │  ├─香干芹菜炒肉
    │  │  ├─香菇滑鸡
    │  │  ├─鸡蛋羹
    │  │  └─黄油煎虾
    │  ├─semi-finished
    │  │  └─速冻汤圆
    │  ├─soup
    │  │  ├─昂刺鱼豆腐汤
    │  │  └─西红柿土豆炖牛肉
    │  ├─staple
    │  │  ├─pizza
    │  │  ├─日式咖喱饭
    │  │  ├─烙饼
    │  │  └─老友猪肉粉
    │  └─template
    │      └─示例菜
    └─tips
        ├─advanced
        └─learn
    

    3.批量执行脚本

    • 提供批量转换功能
    • 文件夹嵌套处理
    • 统一导出到当前目录的./output/

    md2pdf

    直接采用Pandoc转PDF的方法不太好使,所以采取了折中的方案:先将MarkdownPandoc转换为HTML,然后再用wkhtmltopdf完成PDF转换。

    Pandoc转换为HTML几乎完美,但是需要补充HTML头部以及CSS样式等。所以前端大佬可以直接修改html_head.txt中的文件完善。

    import pdfkit
    import pypandoc
    import os
    from argparse import ArgumentParser
    
    
    # 输出目录
    OUTPUT_DIR = "output/"
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    
    
    def get_file_name(mk_file_path, file_list, outlist):
        """找到mk_file_path路径下的所有.md文件"""
        print(f'【{mk_file_path}】Markdown文件如下:')
        for root, dirs, files in os.walk(mk_file_path):
            for f in files:
                each = os.path.join(root, f)
                if ".md" in each:
                    file_list.append(each)
                    filename = each.replace('.md', '.pdf')
                    f = filename.split("\\")[-1]
                    outlist.append(os.path.join(OUTPUT_DIR, f))
        print('检索完毕')
        print(f"一共有{len(outlist)}个文件, 分别为{outlist}")
    
    
    def convert(input_file, output_file):
        pypandoc.convert_file(input_file, 'html', outputfile='tmp.html')
        html_head_file = open("html_head.txt", "r", encoding='utf-8')
        html_head = html_head_file.read()
        html_head_file.close()
        html_tail = "\n</body>\n</html>"
        html_body_file = open('tmp.html', "r", encoding='utf-8')
        html_body_txt = html_body_file.read()
        html_body_file.close()
        html_body = html_head + html_body_txt + html_tail
        # 先创建临时的html文件
        with open('tmp.html', 'w', encoding='utf-8') as f:
            f.write(html_body)
            f.close()
        # 再将html文件转成pdf文件
        pdfkit.from_file('tmp.html', output_file, options={"enable-local-file-access": None})
        if os.path.exists('tmp.html'):
            os.remove('tmp.html')
        print(input_file + '转换成功!')
    
    
    def _init_argumentParser():
        a = ArgumentParser(usage="Markdown->PDF批量转换助手")
        a.add_argument("-p", "--path", required=True, type=str, help="检索路径")
        return a.parse_args()
    
    
    if __name__ == '__main__':
        # markdown文件路径
        # mk_path = "HowToCook/dishes"
        args = _init_argumentParser()
    
        # 修改文件路径List
        mk_file_list = []
        # 输出文件路径List
        output_pdf_file_list = []
        # 转换失败的文件
        failed = []
    
        # 获得文件名
        get_file_name(args.path, mk_file_list, output_pdf_file_list)
        # 对文件进行转换
        for i in range(len(mk_file_list)):
            try:
                convert(mk_file_list[i], output_pdf_file_list[i])
            except Exception as e:
                print(f"{mk_file_list[i]} 出现了问题 , 原因为: \n{e}")
                failed.append(mk_file_list[i])
    
        print(f"失败的有{len(failed)}个, {failed}")
    
    

    Fork from : https://github.com/Dafeigy/md2pdf

    demo-batch-markdown-to-pdf

    from: 文章——如何把 Markdown 文件批量转换为 PDF

    from pathlib import Path
    import os
    
    work_dir = Path.cwd()
    
    export_pdf_dir = work_dir / 'pdf'
    if not export_pdf_dir.exists():
        export_pdf_dir.mkdir()
    
    for md_file in list(work_dir.glob('*.md')):
        md_file_name = md_file.name
        pdf_file_name = md_file_name.replace('.md', '.pdf')
        pdf_file = export_pdf_dir / pdf_file_name
        cmd = "pandoc '{}' -o '{}' --pdf-engine=xelatex -V mainfont='PingFang SC' --template=template.tex".format(md_file, pdf_file)
        os.system(cmd)
    

    :question:没运行成功

    附录

    问题解决

    IOError: No wkhtmltopdf executable found: “”

    python使用pdfkit中,如果使用pdfkit.from_url 或者pdfkit.from_string等,就会出现上述错误。而且如果你使用pip安装了 wkhtmltopdf,还是会出现这个问题:

    IOError: No wkhtmltopdf executable found: “”
    
    1. 因此需要去安装windows版本的*wkhtmltopdf*此处进入下载网址
    2. 安装完成之后添加环境变量后,再运行即可

    pandoc报错

    解决方案: pypandoc 转换html 为word 报错

    No pandoc was found: either install pandoc and add it to your PATH or or call pypandoc.download_pandoc(...) or install pypandoc wheels with included pandoc.
    

    参考了资料 关于python用pypandoc问题(python3)(探索ing)_晓星晨曦-CSDN博客_pypandoc未能解决,后面版本安装,指定pypandoc用的版本1.6.3,可行。

    相关文章

      网友评论

          本文标题:Markdown文件批量转PDF的Python脚本

          本文链接:https://www.haomeiwen.com/subject/unbynrtx.html