gImageReader,具有OCR功能的PDF应用程序

关于gimagereader

在下一篇文章中,我们将看一下gImageReader。 这是一个应用 发动机前端 Tesseract OCR。 对于那些不了解Tesseract的人来说,这是一个光学字符识别(OCR)引擎,它使用人工智能来搜索和识别打印在图像上的文本。 它是一个开源库,也是市场上最受欢迎的OCR引擎之一。 简化从图像中提取打印文本的整个过程 允许用户处理文件,扫描的图像,PDF,粘贴的剪贴板项目等。

如今,所有用户,无论是在办公室,房屋等中,都处于一种需要从图像中提取文本的情况下。 它可以是图像格式的扫描文档,一张纸或旧的研究论文。 许多用户会选择使用编辑器键入所有文本,但是此过程可能很耗时。 为了避免这项工作,我们还可以选择 使用OCR自动提取文本.

gImageReader将为我们提供许多功能和工具。 导入后,此应用程序是一个很好的工具 PDF 或扫描的文档及其进一步处理。

GImageReader的一般功能

ocr g图像阅读器

  • 我们将能够 从磁盘,扫描设备,剪贴板和屏幕截图导入PDF文档和图像。 gImageReader支持多种类型的文件。 我们只需要将文件导入到该工具中, 一键提取文本.
  • 我们将有可能 从hOCR文档生成PDF文档。 gImageReader支持三种格式的提取文本,纯文本,PDF和hOCR格式。
  • 该工具将为我们提供以下可能性 定义手动或自动识别区域 选择要提取的文本。
  • 识别的文本直接显示在图像旁边。 如您在上面的屏幕截图中所见。
  • 提取为纯文本后,gImageReader会执行后处理动作,例如 拼写检查。 根据我们选择的语言(默认为所有英语),将在语法错误的单词下划线。 此外,gImageReader允许我们选择要用于提取的文本的页面分割模式。
  • 与其他可以一次处理一个文件的OCR工具不同,gImageReader支持 导入大量文件及其批处理s.

关于这个程序,我们可以 在其官方页面上获取更多信息或任何新更新 GitHub上.

在Ubuntu上安装

以pdf格式运行的应用程序

这是一个 多平台应用程序 它可以在Gnu / Linux和Windows上运行。 在以下几行中,我们将在Ubuntu 18.04中看到gImageReader的安装过程,如下所示: 项目的GitHub页面.

添加PPA

要拥有此软件,我们将需要 将PPA存储库添加到我们的系统。 我们将通过打开终端(Ctrl + Alt + T)并键入以下命令来执行此操作:

添加回购gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

安装gImageReader

在软件更新可用之后,我们现在可以 继续安装应用程序 在同一终端上输入:

gImageReader安装

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

通过以上所有步骤,gImageReader应该安装在您的Ubuntu上。 现在,我们应该能够在计算机上启动该程序了。

应用启动器

卸载

万一我们想要 卸载gImageReader,在终端(Ctrl + Alt + T)中,我们只需要使用以下命令:

删除gImageReader

sudo apt-get remove gimagereader -y

为了消除该程序,我们还可以执行:

sudo apt-get autoremove

通过在同一终端中键入,可以从系统中消除我们用于安装的PPA:

卸载gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader很简单 前端Gtk / Qt Tesseract-ocr 这样就简化了从图像中提取打印文本的整个过程。 它将使我们能够处理文件,扫描的图像,PDF,粘贴的剪贴板项目等。 这是轻松,快速地将文字从我们的图片中提取出来的好选择。


发表您的评论

您的电子邮件地址将不会被发表。 必填字段标有 *

*

*

  1. 负责数据:MiguelÁngelGatón
  2. 数据用途:控制垃圾邮件,注释管理。
  3. 合法性:您的同意
  4. 数据通讯:除非有法律义务,否则不会将数据传达给第三方。
  5. 数据存储:Occentus Networks(EU)托管的数据库
  6. 权利:您可以随时限制,恢复和删除您的信息。