美文网首页
PHP读取PDF内容方法

PHP读取PDF内容方法

作者: 八维数据 | 来源:发表于2021-04-25 21:25 被阅读0次

读取PDF工具安装教程

我这边使用的是 xpdf工具,是使用最好的一个读取工具,读取的中文不会有乱码出现。

xpdf安装配置

下载:

根据系统选择下载 https://www.xpdfreader.com/download.html

下载xpdf和中文字体,分别解压缩。

文件名: xpdf-tools-win-4.03.zip

中文支持库名:xpdf-chinese-simplified.tar.gz

windows下安装

建立 xpdf 根目录 d:\tool\xpdf

(1)并将xpdf-tools-win-4.03\bin64目录下所有文件复制到 d:\xpdf 下。

(2)将xpdf-chinese-simplified直接解压出的 整个文件夹复制到 d:\xpdf 下。

(3) 复制 xpdf-tools-win-4.03\doc 路径下的 sample-xpdfrc 文件到 d:\tool\xpdf 下,并改名为 xpdfrc。

(4)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,

(5)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。

(6)在此文件最后增加以下内容,声明中文字体文件

#----- begin Chinese Simplified support package (2011-sep-02)

cidToUnicode Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN D:/tool/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN D:/tool/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK D:/tool/xpdf/xpdf-chinese-simplified/GBK.unicodeMap

cMapDir Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/CMap

toUnicodeDir D:/tool/xpdf/xpdf-chinese-simplified/CMap

#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf

#fontFileCC Adobe-GB1 /usr/…/gkai00mp.ttf

#----- end Chinese Simplified support package

windows下使用方法

windows使用命令:

D:\tool\xpdf\pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng

说明:进入D:\tool\xpdf 文件夹中,运行 pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng。-f 1 是指从第一页开始。 -l 1 是指第一页结束,最后一个是生成的图片名前缀叫testpng 最终会以testpng-000001.png的形式生成。

如果要导出文本用 pdftotext.exe命令。

php调用方法

<?

$filename="D:/11/02261390000606560259.pdf ";//文件名称及路径

$content = shell_exec ( 'D:/tool/xpdf/pdftotext '.$filename .'-');

echo $content;

?>

相关文章

  • PHP读取PDF内容方法

    读取PDF工具安装教程 我这边使用的是 xpdf工具,是使用最好的一个读取工具,读取的中文不会有乱码出现。 xpd...

  • php逐行读取文本

    php逐行读取文本内容

  • Python读取PDF内容

    1,引言 晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓...

  • 读取文件内容-PHP

    isset() 检查是否声明变量empty() 检查变量是否有值 (有值返回false)substr(string...

  • 文件系统

    PHP文件系统之读取文件内容 PHP具有丰富的文件操作函数,最简单的读取文件的函数为file_get_conten...

  • PHP基础回顾(一)

    PHP 能做什么?PHP 可以生成动态页面内容PHP 可以创建、打开、读取、写入、关闭服务器上的文件PHP 可以收...

  • PHP初识

    1.PHP 能够做什么? (1)PHP 能够生成动态页面内容;(2)PHP 能够创建、打开、读取、写入、删除以及关...

  • PHP逐行读取匹配内容

  • PHP入门

    、 PHP 文件打开/读取/读取/创建/写入

  • PDF在线阅读的两种方法

    PDF在线阅读的两种方法: 1.直接用Object读取PDF文件(如果机器上客户端都安装了PDF的话) aspx代...

网友评论

      本文标题:PHP读取PDF内容方法

      本文链接:https://www.haomeiwen.com/subject/asyjrltx.html