U sljedećem ćemo članku pogledati gImageReader. Ovo je aplikacija prednji kraj za motor Tesseract OCR. Za one koji ne poznaju Tesseract, recite da je to mehanizam za optičko prepoznavanje znakova (OCR) koji koristi umjetnu inteligenciju za pretraživanje i prepoznavanje teksta odštampanog na slikama. To je biblioteka otvorenog koda i jedan od najpopularnijih OCR mehanizama na tržištu. Pojednostavite čitav postupak izdvajanja ispisanog teksta iz slika omogućavajući korisnicima rad s datotekama, skeniranim slikama, PDF-ovima, zalijepljenim stavkama u međuspremnik itd.
Danas se svi korisnici, bilo u uredima, domovima itd., Možemo naći u situaciji u kojoj moramo izvući tekst sa slike. To može biti skenirani dokument u formatu slike, komad papira ili stari istraživački rad. Opcija koju bi koristili mnogi korisnici bila bi da sav tekst upišu pomoću uređivača, ali ovaj postupak može potrajati. Da bismo izbjegli ovaj posao, možemo se odlučiti i za opciju koristite OCR za automatsko izdvajanje teksta.
gImageReader će nam ponuditi mnoge funkcije i alate. Ova je aplikacija dobar alat za upotrebu nakon uvoza a PDF ili skenirani dokument i njegova daljnja obrada.
Opće značajke GImageReader-a
- Moći ćemo uvoz PDF dokumenata i slika s diska, uređaja za skeniranje, međuspremnika i snimaka ekrana. gImageReader podržava mnoge vrste datoteka. Jednostavno ćemo morati uvesti svoje datoteke u alat i izvuci tekst jednim klikom.
- Imat ćemo mogućnost generirati PDF dokumente iz hOCR dokumenata. gImageReader podržava tri formata izdvojenog teksta, obični tekst, PDF i hOCR format.
- Alat će nam pružiti mogućnost definirajte područje ručnog ili automatskog prepoznavanja za odabir teksta za izdvajanje.
- Prepoznati tekst se prikazuje neposredno pored slike. Kao što možete vidjeti na gornjoj snimci zaslona.
- Nakon izdvajanja u običan tekst, gImageReader izvodi radnje naknadne obrade, kao što je provjera pravopisa. Ovisno o jeziku koji odaberemo (zadana vrijednost je All English), podvući će riječi koje imaju gramatičke pogreške. Uz to, gImageReader nam omogućava da odaberemo način segmentacije stranice koji želimo koristiti za izvađeni tekst.
- Za razliku od ostalih OCR alata gdje istovremeno možemo raditi s jednom datotekom, gImageReader podržava uvoz brojnih datoteka i batch obradas.
O ovom programu možemo dobiti više informacija ili bilo koje novo ažuriranje na njihovoj službenoj stranici GitHub.
Instalacija na Ubuntu
Ovo je a primjena na više platformi i radi i na Gnu / Linuxu i na Windowsu. U narednim redovima vidjet ćemo postupak instalacije gImageReader-a u Ubuntu 18.04 kako je naznačeno u GitHub stranica projekta.
Dodajte PPA
Da bismo imali ovaj softver trebat će nam dodajte PPA spremište u naš sistem. To ćemo učiniti otvaranjem terminala (Ctrl + Alt + T) i upisivanjem sljedeće naredbe:
sudo add-apt-repository ppa:sandromani/gimagereader
Instalirajte gImageReader
Nakon dostupnog ažuriranja softvera, sada to možemo nastavite s instaliranjem aplikacije upisivanje u isti terminal:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Uz sve gore navedeno, gImageReader bi se trebao instalirati na vaš Ubuntu. Sada bismo trebali moći pokrenuti program na našem računaru.
Deinstaliraj
U slučaju da želimo deinstalirati gImageReaderU terminalu (Ctrl + Alt + T) trebat ćemo koristiti samo sljedeću naredbu:
sudo apt-get remove gimagereader -y
Da bismo dovršili eliminaciju programa, možemo izvršiti i:
sudo apt-get autoremove
PPA koji koristimo za instalaciju može se eliminirati iz našeg sistema upisivanjem u isti terminal:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader je jednostavan prednji kraj Gtk / Qt za teserakt-okr što pojednostavljuje čitav postupak izdvajanja ispisanog teksta iz slika. Omogućit će nam rad s datotekama, skeniranim slikama, PDF-om, zalijepljenim stavkama u međuspremnik itd. To je dobra opcija za uklanjanje teksta s naših slika lako i brzo.