美文网首页
PHP读取PDF内容方法

PHP读取PDF内容方法

作者: 八维数据 | 来源:发表于2021-04-25 21:25 被阅读0次

    读取PDF工具安装教程

    我这边使用的是 xpdf工具,是使用最好的一个读取工具,读取的中文不会有乱码出现。

    xpdf安装配置

    下载:

    根据系统选择下载 https://www.xpdfreader.com/download.html

    下载xpdf和中文字体,分别解压缩。

    文件名: xpdf-tools-win-4.03.zip

    中文支持库名:xpdf-chinese-simplified.tar.gz

    windows下安装

    建立 xpdf 根目录 d:\tool\xpdf

    (1)并将xpdf-tools-win-4.03\bin64目录下所有文件复制到 d:\xpdf 下。

    (2)将xpdf-chinese-simplified直接解压出的 整个文件夹复制到 d:\xpdf 下。

    (3) 复制 xpdf-tools-win-4.03\doc 路径下的 sample-xpdfrc 文件到 d:\tool\xpdf 下,并改名为 xpdfrc。

    (4)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

    (5)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。

    (6)在此文件最后增加以下内容,声明中文字体文件

    #----- begin Chinese Simplified support package (2011-sep-02)

    cidToUnicode Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode

    unicodeMap ISO-2022-CN D:/tool/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap

    unicodeMap EUC-CN D:/tool/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap

    unicodeMap GBK D:/tool/xpdf/xpdf-chinese-simplified/GBK.unicodeMap

    cMapDir Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/CMap

    toUnicodeDir D:/tool/xpdf/xpdf-chinese-simplified/CMap

    #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf

    #fontFileCC Adobe-GB1 /usr/…/gkai00mp.ttf

    #----- end Chinese Simplified support package

    windows下使用方法

    windows使用命令:

    D:\tool\xpdf\pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng

    说明:进入D:\tool\xpdf 文件夹中,运行 pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng。-f 1 是指从第一页开始。 -l 1 是指第一页结束,最后一个是生成的图片名前缀叫testpng 最终会以testpng-000001.png的形式生成。

    如果要导出文本用 pdftotext.exe命令。

    php调用方法

    <?

    $filename="D:/11/02261390000606560259.pdf ";//文件名称及路径

    $content = shell_exec ( 'D:/tool/xpdf/pdftotext '.$filename .'-');

    echo $content;

    ?>

    相关文章

      网友评论

          本文标题:PHP读取PDF内容方法

          本文链接:https://www.haomeiwen.com/subject/asyjrltx.html