gImageReader, aplikácia PDF podporujúca OCR

o aplikácii gimagereader

V nasledujúcom článku sa pozrieme na gImageReader. Toto je aplikácia predná časť pre motor Tesseract OCR. Pre tých, ktorí nepoznajú Tesseract, povedzte, že ide o optické rozpoznávanie znakov (OCR), ktoré pomocou umelej inteligencie vyhľadáva a rozpoznáva text vytlačený na obrázkoch. Je to open source knižnica a jeden z najpopulárnejších OCR motorov na trhu. Zjednodušte celý proces extrakcie tlačeného textu z obrázkov umožňuje používateľom pracovať so súbormi, naskenovanými obrázkami, PDF, prilepenými položkami schránky atď.

Dnes sa všetci používatelia, či už v kanceláriách, domácnostiach atď., Môžu ocitnúť v situácii, keď potrebujeme extrahovať text z obrázka. Môže to byť naskenovaný dokument vo formáte obrázka, kúsok papiera alebo starý výskumný papier. Mnoho používateľov by volilo možnosť napísať všetok text pomocou editora, ale tento proces môže byť časovo náročný. Aby sme sa vyhli tejto práci, môžeme sa tiež rozhodnúť pre možnosť na automatické extrahovanie textu použite OCR.

gImageReader nám ponúkne veľa funkcií a nástrojov. Táto aplikácia je dobrým nástrojom na použitie po importe a PDF alebo naskenovaný dokument a jeho ďalšie spracovanie.

Všeobecné funkcie GImageReader

ocr gImageReader

  • Budeme schopní importujte dokumenty a obrázky PDF z disku, skenovacích zariadení, schránky a snímok obrazovky. gImageReader podporuje mnoho typov súborov. Budeme jednoducho musieť importovať naše súbory do nástroja a rozbaľte text jedným kliknutím.
  • Budeme mať možnosť generujte dokumenty PDF z dokumentov hOCR. gImageReader podporuje tri formáty extrahovaného textu, obyčajného textu, PDF a hOCR.
  • Tento nástroj nám dá možnosť definovať oblasť manuálneho alebo automatického rozpoznávania vyberte text, ktorý chcete extrahovať.
  • Rozpoznaný text sa zobrazí priamo vedľa obrázka. Ako môžete vidieť na snímke vyššie.
  • Po extrahovaní do obyčajného textu gImageReader vykonáva akcie následného spracovania, ako napr Kontrola pravopisu. V závislosti od jazyka, ktorý si vyberieme (predvolená hodnota je All English), podčiarkne slová, ktoré majú gramatické chyby. Okrem toho nám gImageReader umožňuje zvoliť režim segmentácie stránky, ktorý chceme použiť pre extrahovaný text.
  • Na rozdiel od iných nástrojov OCR, kde môžeme pracovať s jedným súborom súčasne, gImageReader podporuje import mnohých súborov a ich dávkové spracovanies.

O tomto programe môžeme Získajte viac informácií alebo akékoľvek nové aktualizácie na svojich oficiálnych stránkach GitHub.

Inštalácia na Ubuntu

aplikácia spustená vo formáte pdf

To je cross-platformové aplikácie a funguje to na GNU / Linux aj Windows. V nasledujúcich riadkoch uvidíme proces inštalácie gImageReader v Ubuntu 18.04, ako je uvedené v stránka projektu GitHub.

Pridajte PPA

Aby sme tento softvér mohli mať, budeme potrebovať pridajte do nášho systému úložisko PPA. Urobíme to tak, že otvoríme terminál (Ctrl + Alt + T) a napíšeme nasledujúci príkaz:

pridať repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Nainštalujte si gImageReader

Po dostupnej aktualizácii softvéru môžeme pokračujte v inštalácii aplikácie zadanie v rovnakom termináli:

inštalácia gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

So všetkým vyššie uvedeným by sa mal program gImageReader nainštalovať na váš Ubuntu. Teraz by sme mali byť schopní spustiť program na našom počítači.

spúšťač aplikácií

uninstall

Keby sme chceli odinštalovať gImageReader, v termináli (Ctrl + Alt + T) budeme musieť použiť iba nasledujúci príkaz:

odstrániť gImageReader

sudo apt-get remove gimagereader -y

Na dokončenie vylúčenia programu môžeme vykonať aj:

sudo apt-get autoremove

PPA, ktoré používame na inštaláciu, môžeme z nášho systému vylúčiť zadaním rovnakého terminálu:

odinštalovať gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader je jednoduchý front-end Gtk / Qt pre tesseract-ocr čo zjednodušuje celý proces extrakcie tlačeného textu z obrázkov. Umožní nám to pracovať so súbormi, naskenovanými obrázkami, PDF, vloženými položkami schránky atď. Toto je dobrá voľba na ľahké a rýchle získanie textu z našich obrázkov.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.