gImageReader,具有OCR功能的PDF應用程序

關於gimagereader

在下一篇文章中,我們將看一下gImageReader。 這是一個應用 發動機前端 Tesseract OCR。 對於那些不了解Tesseract的人來說,這是一個光學字符識別(OCR)引擎,它使用人工智能來搜索和識別打印在圖像上的文本。 它是一個開源庫,也是市場上最受歡迎的OCR引擎之一。 簡化從圖像中提取打印文本的整個過程 允許用戶處理文件,掃描的圖像,PDF,粘貼的剪貼板項目等。

如今,所有用戶,無論是在辦公室,房屋等中,都處於一種需要從圖像中提取文本的情況下。 它可以是圖像格式的掃描文檔,一張紙或舊的研究論文。 許多用戶會選擇使用編輯器鍵入所有文本,但是此過程可能很耗時。 為了避免這項工作,我們還可以選擇 使用OCR自動提取文本.

gImageReader將為我們提供許多功能和工具。 導入後,此應用程序是一個很好的工具 PDF 或掃描的文檔及其進一步處理。

GImageReader的一般功能

ocr g圖像閱讀器

  • 我們將能夠 從磁盤,掃描設備,剪貼板和屏幕截圖導入PDF文檔和圖像。 gImageReader支持多種類型的文件。 我們只需要將文件導入到該工具中, 一鍵提取文本.
  • 我們將有可能 從hOCR文檔生成PDF文檔。 gImageReader支持三種格式的提取文本,純文本,PDF和hOCR格式。
  • 該工具將為我們提供以下可能性 定義手動或自動識別區域 選擇要提取的文本。
  • 識別的文本直接顯示在圖像旁邊。 如您在上面的屏幕截圖中所見。
  • 提取為純文本後,gImageReader會執行後處理動作,例如 拼寫檢查。 根據我們選擇的語言(默認為所有英語),將在語法錯誤的單詞下劃線。 此外,gImageReader允許我們選擇要用於提取的文本的頁面分割模式。
  • 與其他可以一次處理一個文件的OCR工具不同,gImageReader支持 導入大量文件及其批處理s.

關於這個程序,我們可以 在其官方頁面上獲取更多信息或任何新更新 GitHub上.

在Ubuntu上安裝

以pdf格式運行的應用程序

這是一個 跨平台應用 它可以在Gnu / Linux和Windows上運行。 在以下幾行中,我們將在Ubuntu 18.04中看到gImageReader的安裝過程,如下所示: 項目的GitHub頁面.

添加PPA

要擁有此軟件,我們將需要 將PPA存儲庫添加到我們的系統。 我們將通過打開終端(Ctrl + Alt + T)並鍵入以下命令來執行此操作:

添加回購gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

安裝gImageReader

在軟件更新可用之後,我們現在可以 繼續安裝應用程序 在同一終端上寫:

gImageReader安裝

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

通過以上所有步驟,gImageReader應該安裝在您的Ubuntu上。 現在,我們應該能夠在計算機上啟動該程序了。

應用啟動器

卸載

萬一我們想要 卸載gImageReader,在終端(Ctrl + Alt + T)中,我們只需要使用以下命令:

刪除gImageReader

sudo apt-get remove gimagereader -y

為了消除該程序,我們還可以執行:

sudo apt-get autoremove

通過在同一終端中鍵入,可以從系統中消除我們用於安裝的PPA:

卸載gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader很簡單 前端Gtk / Qt Tesseract-ocr 這樣就簡化了從圖像中提取打印文本的整個過程。 它將使我們能夠處理文件,掃描的圖像,PDF,粘貼的剪貼板項目等。 這是輕鬆,快速地將文字從我們的圖片中提取出來的好選擇。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責數據:MiguelÁngelGatón
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。