公众号:尤而小屋
作者:Peter
编辑:Peter
大家好,我是Peter~
在很多情况下,我们都需要处理PDF格式的文件。尤其当我们遇到PDF表格数据需要进行提取,真的是一个令人头疼的问题。
因为PDF文件不能像Word那样直接复制,即使复制了再黏贴也可能会出现格式排版错乱甚至乱码问题。如何从一个PDF文件提取出表格数据?本文提供两个解决方案:
- camelot
- tabula
神器1:camelot
首先提供的一种方法是从文字 PDF 中提取表格信息的工具:Camelot,它能够直接将大部分表格转换为 Pandas 的 Dataframe。
更多的详细信息,请参考项目地址:https://github.com/camelot-dev/camelot
安装camelot
camelot的安装有多种方式。如果有报错,网上一般有解决方式:
1、通过conda安装
conda install -c conda-forge camelot-py
2、使用pip进行安装
pip install "camelot-py[base]"
3、通过GitHub进行安装
首先将项目复制到本地:
git clone https://www.github.com/camelot-dev/camelot
然后进入文件中进行安装:
cd camelot
pip install ".[base]"
使用案例
下面通过一个案例来讲解如何使用camelot。假设我们现在有一个只有一页的PDF文件test.pdf:
image1、先读取文件
tables = camelot.read_pdf("test.pdf")
tables
image
导出成csv格式的数据(方式1)
tables.export('test.csv', # 导出文件名
f='csv', # 导出格式
compress=True # 文件压缩
)
查看tables的相关信息:
image导出方式2:
tables[0].to_csv("test1.csv")
将数据转换成DataFrame:
image神器2:tabula
tabula的功能比camelot更加强大,可以同时对多个表格数据进行提取。项目的具体地址请参考:https://github.com/chezou/tabula-py
安装
tabula的安装是非常简单的:
pip install tabula-py # 安装python扩展
image
安装之后检验这个库是否安装成功:
image读取PDF文件
通过tabula这个库来读取PDF文件:
df1 = tabula.read_pdf("test.pdf",pages="all")
image
然后我们发现列表中唯一的一个元素就是dataframe:
image image输出成csv文件
将读取到的数据输出成CSV格式的文件:
# 方式1:间接输出成csv格式
df2.to_csv("test2.csv")
# 方式2:直接输出成csv格式
tabula.convert_into("test.pdf","test3.csv",output_format="csv",pages='all')
image
上面读取的PDF文件是比较简单的,只有一页,而且刚好是一个很标准的表格形式的数据,下面看一个比较复杂的例子:
- PDF文件总共有3页
- 每页的表格数据格式有差异
下面是第一页,第一列可以看成是索引:
image在第二页中有两份表格,而且中间有很多的空白行:
image第三页的数据比较标准:
image这3页是在同一个PDF文件中,这3页是在同一个PDF文件中,这3页是在同一个PDF文件中
读取第一个表格
tab1 = tabula.read_pdf("data.pdf",stream=True)
len(tab1)
image
上面的红色提示中我们看到:当没有指定pages参数的时候,只会默认读取第一页的数据,所以列表的长度为1。
转成dataframe后将原来的索引变成新的一列(部分数据)
image读取PDF全部数据
通过pages来读取全部数据:
tab2 = tabula.read_pdf("data.pdf",pages="all") # 获取全部数据all
len(tab2)
image
通过指定pages="all":
- 获取到了4个表格的数据,列表长度为4
- 第一个表格转成了dataframe数据后原来的行索引不存在,这个是和上面(没有pages参数)不同的地方
获取指定页面的数据
tab3 = tabula.read_pdf("data.pdf",
pages=3, # 表示第3页的数据
stream=True)
tab3[0]
image
同时获取两个表格的数据:
tab4 = tabula.read_pdf("data.pdf",
pages="1,3", # 同时2个表格数据
stream=True)
len(tab4) # 长度为2
image
image
读取指定位置(面积)的数据
通过area参数来指定:
image删除不需要的信息
删除在读取的表格中我们不需要的字段信息
image image输出不同格式文件
可以将得到的数据输出成不同格式的文件,以json格式为例:
tabula.convert_into("data.pdf", # 源文件
"test4.json", # 输出文件名
output_format="json") # 文件格式
我们可以看到
网友评论