gImageReader, una aplicación para PDF con capacidad de OCR

U sljedećem ćemo članku pogledati gImageReader. Ovo je aplikacija prednji kraj za motor Tesseract OCR. Za one koji ne poznaju Tesseract, recite da je to mehanizam za optičko prepoznavanje znakova (OCR) koji koristi umjetnu inteligenciju za pretraživanje i prepoznavanje teksta odštampanog na slikama. To je biblioteka otvorenog koda i jedan od najpopularnijih OCR mehanizama na tržištu. Pojednostavite čitav postupak izdvajanja ispisanog teksta iz slika omogućavajući korisnicima rad s datotekama, skeniranim slikama, PDF-ovima, zalijepljenim stavkama u međuspremnik itd.

Danas se svi korisnici, bilo u uredima, domovima itd., Možemo naći u situaciji u kojoj moramo izvući tekst sa slike. To može biti skenirani dokument u formatu slike, komad papira ili stari istraživački rad. Opcija koju bi koristili mnogi korisnici bila bi da sav tekst upišu pomoću uređivača, ali ovaj postupak može potrajati. Da bismo izbjegli ovaj posao, možemo se odlučiti i za opciju koristite OCR za automatsko izdvajanje teksta.

gImageReader će nam ponuditi mnoge funkcije i alate. Ova je aplikacija dobar alat za upotrebu nakon uvoza a PDF ili skenirani dokument i njegova daljnja obrada.

Opće značajke GImageReader-a

Moći ćemo uvoz PDF dokumenata i slika s diska, uređaja za skeniranje, međuspremnika i snimaka ekrana. gImageReader podržava mnoge vrste datoteka. Jednostavno ćemo morati uvesti svoje datoteke u alat i izvuci tekst jednim klikom.
Imat ćemo mogućnost generirati PDF dokumente iz hOCR dokumenata. gImageReader podržava tri formata izdvojenog teksta, obični tekst, PDF i hOCR format.
Alat će nam pružiti mogućnost definirajte područje ručnog ili automatskog prepoznavanja za odabir teksta za izdvajanje.
Prepoznati tekst se prikazuje neposredno pored slike. Kao što možete vidjeti na gornjoj snimci zaslona.
Nakon izdvajanja u običan tekst, gImageReader izvodi radnje naknadne obrade, kao što je provjera pravopisa. Ovisno o jeziku koji odaberemo (zadana vrijednost je All English), podvući će riječi koje imaju gramatičke pogreške. Uz to, gImageReader nam omogućava da odaberemo način segmentacije stranice koji želimo koristiti za izvađeni tekst.
Za razliku od ostalih OCR alata gdje istovremeno možemo raditi s jednom datotekom, gImageReader podržava uvoz brojnih datoteka i batch obradas.

O ovom programu možemo dobiti više informacija ili bilo koje novo ažuriranje na njihovoj službenoj stranici GitHub.

Instalacija na Ubuntu

Ovo je a primjena na više platformi i radi i na Gnu / Linuxu i na Windowsu. U narednim redovima vidjet ćemo postupak instalacije gImageReader-a u Ubuntu 18.04 kako je naznačeno u GitHub stranica projekta.

Dodajte PPA

Da bismo imali ovaj softver trebat će nam dodajte PPA spremište u naš sistem. To ćemo učiniti otvaranjem terminala (Ctrl + Alt + T) i upisivanjem sljedeće naredbe:

sudo add-apt-repository ppa:sandromani/gimagereader

Instalirajte gImageReader

Nakon dostupnog ažuriranja softvera, sada to možemo nastavite s instaliranjem aplikacije upisivanje u isti terminal:

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Uz sve gore navedeno, gImageReader bi se trebao instalirati na vaš Ubuntu. Sada bismo trebali moći pokrenuti program na našem računaru.

Deinstaliraj

U slučaju da želimo deinstalirati gImageReaderU terminalu (Ctrl + Alt + T) trebat ćemo koristiti samo sljedeću naredbu:

sudo apt-get remove gimagereader -y

Da bismo dovršili eliminaciju programa, možemo izvršiti i:

sudo apt-get autoremove

PPA koji koristimo za instalaciju može se eliminirati iz našeg sistema upisivanjem u isti terminal:

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader je jednostavan prednji kraj Gtk / Qt za teserakt-okr što pojednostavljuje čitav postupak izdvajanja ispisanog teksta iz slika. Omogućit će nam rad s datotekama, skeniranim slikama, PDF-om, zalijepljenim stavkama u međuspremnik itd. To je dobra opcija za uklanjanje teksta s naših slika lako i brzo.

Ubunlog

gImageReader, PDF aplikacija koja podržava OCR

Opće značajke GImageReader-a

Instalacija na Ubuntu

Dodajte PPA

Instalirajte gImageReader

Deinstaliraj

Ostavite komentar Otkaži odgovor