Linux平台的OCR软件：gImageReader

作者: manjarolinux | 来源:发表于2021-04-08 20:57 被阅读0次

Linux平台的OCR软件：gImageReader
在 Linux 上使用 gImageReader 从图像和 PD
Readiris Pro 17 for Mac(光学识别OCR软
车牌识别API接口车牌识别SDK
如何将PDF转换为pages？使用Enolsoft PDF快速帮
扫描PDF文件OCR识别
传图识字软件哪个好
免费的OCR文字截图识别软件：CaptuocrToy for M
新技巧！OCR文字识别还可以这样用
RPM 命令

简介：gImageReader是一个GUI软件，实现利用tesseract OCR引擎（Tesseract本身是命令行工具）从Linux中的图像和PDF文档中识别文本。

概述

Tesseract最初是由惠普开发的，然后在2006年开源。你可以用OCR（光学字符识别）引擎扫描图片或文件（PDF）中的文本。默认情况下，它可以检测多种语言，并且还支持通过Unicode字符进行扫描。

GitHub项目网址：

https://github.com/manisandro/gImageReader

gImageReader特性

1.从磁盘，扫描设备，剪贴板和屏幕截图添加PDF文档和图像

2.支持多页的 PDF 文档

3.自动分页检测

4.通用图像控件可调节亮度，对比度和分辨率

5.能够一次处理多个图像或文件

6.支持用户手动定义和调整识别区域（也可以自动识别文字区域）

7.识别纯文本或hOCR文档

8.可以提取的文本进行对拼写检查

9.可以从hOCR文档转换/导出为PDF文档

10.将提取的文本导出为.txt文件

11.可以识别不同的语言

12.跨平台

软件安装

1.由于不知道gImageReader在软件仓库中的确切名字，终端输入以下命令进行查询，发现有多个版本，我安装的Qt版本。

sudo pacman -Ss gImageReader

2.终端输入以下命令进行安装

sudo pacman -S gImageReader-qt

3.安装完成出现如下图标表示安装成功。

4.安装OCR引擎，执行以下命令

sudo pacman -S tesseract-data-eng tesseract-data-chi_sim#安装的tesseract-data-eng用于识别英文#安装的tesseract-data-chi_sim用于识别简体中文

5.如果想手动编译源代码，可以参考下方链接（gImageReader官方Wiki）

https://github.com/manisandro/gImageReader/wiki/Compiling-gImageReader

简单使用

一、打开软件出现如下界面

上图中：

1处用来加载待识别的图片

2处用来选择图片中的识别区域

3处用来切换识别文字的语种，可以识别汉语、英语、英汉混合

4处用来显示识别结果

二、下图为识别效果图，更多功能自行探索。

长按复制：ManjaroLinux

网友评论

本文标题：Linux平台的OCR软件：gImageReader

本文链接：https://www.haomeiwen.com/subject/wjavkltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Linux平台的OCR软件：gImageReader

概述

gImageReader特性

软件安装

简单使用

相关文章