Python程序图片和pdf上文字识别实例

作者: b4a0155c6514 | 来源:发表于2019-01-17 11:30 被阅读0次

Python程序图片和pdf上文字识别实例
如何使用ABBYY软件校正不能完全识别的表格
【Python】python实现jpg图片文字转成pdf格式
Python人工智能之图片识别，Python3一行代码实现图片文
OCRKit for mac破解版
python 图片识别文字
Python3调用百度AI识别图片中的文字功能示例【测试可用】
ABBYY软件的OCR文字识别工具有什么用
Python+OCR图片文字识别，验证码识别，银行卡识别
pytesseract

实例一：先减少背景杂音，再做图片文字识别

为了提高识别率，先用opencv-python对扫描的图片做预处理（减少背景杂音），然后调用pytesseract识别图片上的文字。处理方式就是：

学习Python中有不明白推荐加入交流群

            号：960410445
            群里有志同道合的小伙伴，互帮互助，
            群里有不错的视频学习教程和PDF！

1、将图片的颜色模式转成灰度模式，再用OTSU做二值化处理
2、将处理结果保存成临时图片文件
3、调用pytesseract识别临时图片上的文字，识别完毕后删掉临时图片
选择要识别文字的图片调用tkinter打开图形化对话窗口，tkinter是python内置模块，可直接引进不必安装。对tkinter不做太多解释，只是借助它的功能函数打开对话窗口。引入内置os的功能函数删除临时文件。
from PIL import Image # pytesseract识别图片上的文字时要用
import pytesseract # 识别图片上的文字
import cv2 # 图片预处理，减少背景杂音
import os # 删除临时文件
from tkinter import Tk # 帮忙用图形化界面找到要识别的图片文件
from tkinter.filedialog import askopenfilename

Tk().withdraw() # 这里不是要全部图形化界面，所以就不显示根窗口了
imgName = askopenfilename() # 显示“打开”窗口，返回选中的图片文件的路径+文件名字符串

预处理图片

greyImg = cv2.imread(imgName, 0)

预处理第一步，彩色模式转成灰度模式：以灰度模式打开图片，生成灰度图片

greyImg = cv2.threshold(greyImg, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]

预处理第二步，OTSU二值法，返回的是列表，第二个元素（索引为1）指向被处理的图片

将预处理结果保存成临时文件，文件名用它在系统的进程ID（os.getpid()）

filename = "{}.png".format(os.getpid())
cv2.imwrite(filename, greyImg)

调用pytesseract将图片上的文字识别出来

txt = pytesseract.image_to_string(Image.open(filename))

os.remove(filename) # 删除临时图片文件

with open("toFile.txt", 'w', encoding='utf-8') as fObject:
fObject.write(txt) # 将识别出来的字符串保存到文本文件
提高图片文字的识别率和正确率是个大话题，跟图片上文字的背景有关系，跟图片分辨率有关系，跟识别用的字库的识别能力也有关系（字库可以训练），牵扯的技术手段很多。除了减少背景杂音外，还有一些预处理工作我们也可以做，比如把图片上有文字的部分截取下来识别（效果很明显）；把图片上的文字分成一小段一小段识别，甚至分成一个一个字符来识别……有兴趣的朋友可以自己研究。
实例二：识别pdf上的文字

识别pdf上的文字分几步进行：
1、引入wand模块，把pdf文件转成图片序列，通过序列的索引可以获得pdf的每一页。
2、遍历这个图片序列，把序列的每一页变成wand图片对象，转成灰度模式（简单预处理下，以提高识别度），接下来本应添加进图像列表req_image中，但却遇到一个问题：
PyOCR模块做图片文字识别的功能函数的形参只接收pillow的Image模块打开的图片PIL.Image.open()，不接受wand图形对象，PIL.Image.open()也不接收wand图片对象。当然可以wand图像对象保存成图片文件，然后PIL.Image.open()打开这个图片文件。
有个更快的处理方法，不用硬盘（硬盘慢）做媒介用缓存（buffer）：先用wand图片对象的make_blob把图片转成二进制数据流，把二进制数据流放入列表req_image中。
3、遍历列表req_image，ByteIO()读取二进制数据流，返回值可以被PIL.Image.open()接受。接下去就可以调用PyOCR模块的功能函数做图片文字转换了。
4、将识别结果放进列表final_text，用pprint模块的pprint()显示出来。pprint，pretty print顾名思义，输出结果规整好看一些。
from wand.image import Image as wandImage # pdf –> jpeg
from PIL import Image as pillowIMage # PyOCR需要
import pyocr.builders # OCR识别
import io # 将Wand处理结果传给给Pillow
import pprint # 美美的打印出来

PyOCR初始化

tool = pyocr.get_available_tools()[0]

获得OCR内核工具，这里用的是Tesseract

lang = tool.get_available_languages()[0]

获得识别用语言，这里用的是简体中文，参见20.2 PyOCR的初始化程序

req_image = [] # 存放pdf转换过来的图片二进制数据流
final_text = [] # 存放识别结果，每个元素是每一页识别出来的文字

ima_pdf = wandImage(filename='instance.pdf', resolution=300)

打开pdf文件，生成wand图片对象。分辨率设为300，设高分辨率有助于提高识别率

image_jpeg = ima_pdf.convert('jpeg')

pdf文件转成图片，实际上是个图片序列，序列的长度与pdf的页数相同

for img in image_jpeg.sequence: # 遍历图片序列的每页图片
img_page = wandImage(image=img) # 生成为wand图片对象
img_page.type = 'grayscale' # 转成灰度模式有助于OCR识别文字
req_image.append(img_page.make_blob('jpeg'))

转成二进制数据流放进列表

for img in req_image: # 一页一页OCR识别文字
text = tool.image_to_string(
pillowIMage.open(io.BytesIO(img)),
# io.BytesIO()从内存中读入二进制数据流
lang=lang, # 识别语言
builder=pyocr.builders.TextBuilder() # 识别器
)
final_text.append(text) # 识别出来的结果添进列表

pprint.pprint(final_text) # 显示识别结果

网友评论

本文标题：Python程序图片和pdf上文字识别实例

本文链接：https://www.haomeiwen.com/subject/hiabdqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python程序图片和pdf上文字识别实例

学习Python中有不明白推荐加入交流群

预处理图片

预处理第一步，彩色模式转成灰度模式：以灰度模式打开图片，生成灰度图片

预处理第二步，OTSU二值法，返回的是列表，第二个元素（索引为1）指向被处理的图片

将预处理结果保存成临时文件，文件名用它在系统的进程ID（os.getpid()）

调用pytesseract将图片上的文字识别出来

PyOCR初始化

获得OCR内核工具，这里用的是Tesseract

获得识别用语言，这里用的是简体中文，参见20.2 PyOCR的初始化程序

打开pdf文件，生成wand图片对象。分辨率设为300，设高分辨率有助于提高识别率

pdf文件转成图片，实际上是个图片序列，序列的长度与pdf的页数相同

转成二进制数据流放进列表

相关文章

Python程序图片和pdf上文字识别实例

如何使用ABBYY软件校正不能完全识别的表格

【Python】python实现jpg图片文字转成pdf格式

Python人工智能之图片识别，Python3一行代码实现图片文

OCRKit for mac破解版

python 图片识别文字

Python3调用百度AI识别图片中的文字功能示例【测试可用】

ABBYY软件的OCR文字识别工具有什么用

Python+OCR图片文字识别，验证码识别，银行卡识别

pytesseract

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

码农的世界

Python