美文网首页Linux终端操作积累
用pdftohtml将PDF转成HTML

用pdftohtml将PDF转成HTML

作者: Solomon_Xie | 来源:发表于2019-01-09 00:56 被阅读0次

    pdftohtml同样是超强命令行工具集poppler的一个子集,和pdfimages等优秀的子集一样。用好了是非常便利的。

    需要理解的是,pdftohtml扫描版PDF是没什么用对。它的主要功能是把pdf中元素全部提取出来,然后按照布局生成HTML。但是扫描版的相当于是一张图片,没有任何元素信息。

    Mac上,直接homebrew:

    $ brew install poppler
    

    安装好poppler工具集后,就可以用pdftohtml命令了。

    常用命令:

    # 默认输出 (生成多个互相嵌套的html文件,以及多个图片
    $ pdftohtml sample.pdf sample.html
    
    # 生成"复杂"排版,其实就是更精确排版的意思 --complex
    $ pdftohtml -c sample.pdf sample.html
    
    # 指定第一页至最后一页区间:first-last
    $ pdftohtml -f 1 -l 2 sample.pdf sample.html
    

    效果:
    效果还好,即使是中文的,排版也没有偏离很远。
    程序会自动生成很多很多很多的html和图片文件,全都在一个文件夹里面不分类。

    相关文章

      网友评论

        本文标题:用pdftohtml将PDF转成HTML

        本文链接:https://www.haomeiwen.com/subject/wunprqtx.html