V nasledujúcom článku sa pozrieme na gImageReader. Toto je aplikácia predná časť pre motor Tesseract OCR. Pre tých, ktorí nepoznajú Tesseract, povedzte, že ide o optické rozpoznávanie znakov (OCR), ktoré pomocou umelej inteligencie vyhľadáva a rozpoznáva text vytlačený na obrázkoch. Je to open source knižnica a jeden z najpopulárnejších OCR motorov na trhu. Zjednodušte celý proces extrakcie tlačeného textu z obrázkov umožňuje používateľom pracovať so súbormi, naskenovanými obrázkami, PDF, prilepenými položkami schránky atď.
Dnes sa všetci používatelia, či už v kanceláriách, domácnostiach atď., Môžu ocitnúť v situácii, keď potrebujeme extrahovať text z obrázka. Môže to byť naskenovaný dokument vo formáte obrázka, kúsok papiera alebo starý výskumný papier. Mnoho používateľov by volilo možnosť napísať všetok text pomocou editora, ale tento proces môže byť časovo náročný. Aby sme sa vyhli tejto práci, môžeme sa tiež rozhodnúť pre možnosť na automatické extrahovanie textu použite OCR.
gImageReader nám ponúkne veľa funkcií a nástrojov. Táto aplikácia je dobrým nástrojom na použitie po importe a PDF alebo naskenovaný dokument a jeho ďalšie spracovanie.
Všeobecné funkcie GImageReader
- Budeme schopní importujte dokumenty a obrázky PDF z disku, skenovacích zariadení, schránky a snímok obrazovky. gImageReader podporuje mnoho typov súborov. Budeme jednoducho musieť importovať naše súbory do nástroja a rozbaľte text jedným kliknutím.
- Budeme mať možnosť generujte dokumenty PDF z dokumentov hOCR. gImageReader podporuje tri formáty extrahovaného textu, obyčajného textu, PDF a hOCR.
- Tento nástroj nám dá možnosť definovať oblasť manuálneho alebo automatického rozpoznávania vyberte text, ktorý chcete extrahovať.
- Rozpoznaný text sa zobrazí priamo vedľa obrázka. Ako môžete vidieť na snímke vyššie.
- Po extrahovaní do obyčajného textu gImageReader vykonáva akcie následného spracovania, ako napr Kontrola pravopisu. V závislosti od jazyka, ktorý si vyberieme (predvolená hodnota je All English), podčiarkne slová, ktoré majú gramatické chyby. Okrem toho nám gImageReader umožňuje zvoliť režim segmentácie stránky, ktorý chceme použiť pre extrahovaný text.
- Na rozdiel od iných nástrojov OCR, kde môžeme pracovať s jedným súborom súčasne, gImageReader podporuje import mnohých súborov a ich dávkové spracovanies.
O tomto programe môžeme Získajte viac informácií alebo akékoľvek nové aktualizácie na svojich oficiálnych stránkach GitHub.
Inštalácia na Ubuntu
To je cross-platformové aplikácie a funguje to na GNU / Linux aj Windows. V nasledujúcich riadkoch uvidíme proces inštalácie gImageReader v Ubuntu 18.04, ako je uvedené v stránka projektu GitHub.
Pridajte PPA
Aby sme tento softvér mohli mať, budeme potrebovať pridajte do nášho systému úložisko PPA. Urobíme to tak, že otvoríme terminál (Ctrl + Alt + T) a napíšeme nasledujúci príkaz:
sudo add-apt-repository ppa:sandromani/gimagereader
Nainštalujte si gImageReader
Po dostupnej aktualizácii softvéru môžeme pokračujte v inštalácii aplikácie zadanie v rovnakom termináli:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
So všetkým vyššie uvedeným by sa mal program gImageReader nainštalovať na váš Ubuntu. Teraz by sme mali byť schopní spustiť program na našom počítači.
uninstall
Keby sme chceli odinštalovať gImageReader, v termináli (Ctrl + Alt + T) budeme musieť použiť iba nasledujúci príkaz:
sudo apt-get remove gimagereader -y
Na dokončenie vylúčenia programu môžeme vykonať aj:
sudo apt-get autoremove
PPA, ktoré používame na inštaláciu, môžeme z nášho systému vylúčiť zadaním rovnakého terminálu:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader je jednoduchý front-end Gtk / Qt pre tesseract-ocr čo zjednodušuje celý proces extrakcie tlačeného textu z obrázkov. Umožní nám to pracovať so súbormi, naskenovanými obrázkami, PDF, vloženými položkami schránky atď. Toto je dobrá voľba na ľahké a rýchle získanie textu z našich obrázkov.