在下一篇文章中,我們將看一下gImageReader。 這是一個應用 發動機前端 Tesseract OCR。 對於那些不了解Tesseract的人來說,這是一個光學字符識別(OCR)引擎,它使用人工智能來搜索和識別打印在圖像上的文本。 它是一個開源庫,也是市場上最受歡迎的OCR引擎之一。 簡化從圖像中提取打印文本的整個過程 允許用戶處理文件,掃描的圖像,PDF,粘貼的剪貼板項目等。
如今,所有用戶,無論是在辦公室,房屋等中,都處於一種需要從圖像中提取文本的情況下。 它可以是圖像格式的掃描文檔,一張紙或舊的研究論文。 許多用戶會選擇使用編輯器鍵入所有文本,但是此過程可能很耗時。 為了避免這項工作,我們還可以選擇 使用OCR自動提取文本.
gImageReader將為我們提供許多功能和工具。 導入後,此應用程序是一個很好的工具 PDF 或掃描的文檔及其進一步處理。
GImageReader的一般功能
- 我們將能夠 從磁盤,掃描設備,剪貼板和屏幕截圖導入PDF文檔和圖像。 gImageReader支持多種類型的文件。 我們只需要將文件導入到該工具中, 一鍵提取文本.
- 我們將有可能 從hOCR文檔生成PDF文檔。 gImageReader支持三種格式的提取文本,純文本,PDF和hOCR格式。
- 該工具將為我們提供以下可能性 定義手動或自動識別區域 選擇要提取的文本。
- 識別的文本直接顯示在圖像旁邊。 如您在上面的屏幕截圖中所見。
- 提取為純文本後,gImageReader會執行後處理動作,例如 拼寫檢查。 根據我們選擇的語言(默認為所有英語),將在語法錯誤的單詞下劃線。 此外,gImageReader允許我們選擇要用於提取的文本的頁面分割模式。
- 與其他可以一次處理一個文件的OCR工具不同,gImageReader支持 導入大量文件及其批處理s.
關於這個程序,我們可以 在其官方頁面上獲取更多信息或任何新更新 GitHub上.
在Ubuntu上安裝
這是一個 跨平台應用 它可以在Gnu / Linux和Windows上運行。 在以下幾行中,我們將在Ubuntu 18.04中看到gImageReader的安裝過程,如下所示: 項目的GitHub頁面.
添加PPA
要擁有此軟件,我們將需要 將PPA存儲庫添加到我們的系統。 我們將通過打開終端(Ctrl + Alt + T)並鍵入以下命令來執行此操作:
sudo add-apt-repository ppa:sandromani/gimagereader
安裝gImageReader
在軟件更新可用之後,我們現在可以 繼續安裝應用程序 在同一終端上寫:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
通過以上所有步驟,gImageReader應該安裝在您的Ubuntu上。 現在,我們應該能夠在計算機上啟動該程序了。
卸載
萬一我們想要 卸載gImageReader,在終端(Ctrl + Alt + T)中,我們只需要使用以下命令:
sudo apt-get remove gimagereader -y
為了消除該程序,我們還可以執行:
sudo apt-get autoremove
通過在同一終端中鍵入,可以從系統中消除我們用於安裝的PPA:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader很簡單 前端Gtk / Qt Tesseract-ocr 這樣就簡化了從圖像中提取打印文本的整個過程。 它將使我們能夠處理文件,掃描的圖像,PDF,粘貼的剪貼板項目等。 這是輕鬆,快速地將文字從我們的圖片中提取出來的好選擇。