gImageReader, PDF aplikacija koja podržava OCR

o čitaču slika

U sljedećem ćemo članku pogledati gImageReader. Ovo je aplikacija prednji kraj za motor Tesseract OCR. Za one koji ne poznaju Tesseract, recite da je to mehanizam za optičko prepoznavanje znakova (OCR) koji koristi umjetnu inteligenciju za pretraživanje i prepoznavanje teksta odštampanog na slikama. To je biblioteka otvorenog koda i jedan od najpopularnijih OCR mehanizama na tržištu. Pojednostavite čitav postupak izdvajanja ispisanog teksta iz slika omogućavajući korisnicima rad s datotekama, skeniranim slikama, PDF-ovima, zalijepljenim stavkama u međuspremnik itd.

Danas se svi korisnici, bilo u uredima, domovima itd., Možemo naći u situaciji u kojoj moramo izvući tekst sa slike. To može biti skenirani dokument u formatu slike, komad papira ili stari istraživački rad. Opcija koju bi koristili mnogi korisnici bila bi da sav tekst upišu pomoću uređivača, ali ovaj postupak može potrajati. Da bismo izbjegli ovaj posao, možemo se odlučiti i za opciju koristite OCR za automatsko izdvajanje teksta.

gImageReader će nam ponuditi mnoge funkcije i alate. Ova je aplikacija dobar alat za upotrebu nakon uvoza a PDF ili skenirani dokument i njegova daljnja obrada.

Opće značajke GImageReader-a

ocr gImageReader

  • Moći ćemo uvoz PDF dokumenata i slika s diska, uređaja za skeniranje, međuspremnika i snimaka ekrana. gImageReader podržava mnoge vrste datoteka. Jednostavno ćemo morati uvesti svoje datoteke u alat i izvuci tekst jednim klikom.
  • Imat ćemo mogućnost generirati PDF dokumente iz hOCR dokumenata. gImageReader podržava tri formata izdvojenog teksta, obični tekst, PDF i hOCR format.
  • Alat će nam pružiti mogućnost definirajte područje ručnog ili automatskog prepoznavanja za odabir teksta za izdvajanje.
  • Prepoznati tekst se prikazuje neposredno pored slike. Kao što možete vidjeti na gornjoj snimci zaslona.
  • Nakon izdvajanja u običan tekst, gImageReader izvodi radnje naknadne obrade, kao što je provjera pravopisa. Ovisno o jeziku koji odaberemo (zadana vrijednost je All English), podvući će riječi koje imaju gramatičke pogreške. Uz to, gImageReader nam omogućava da odaberemo način segmentacije stranice koji želimo koristiti za izvađeni tekst.
  • Za razliku od ostalih OCR alata gdje istovremeno možemo raditi s jednom datotekom, gImageReader podržava uvoz brojnih datoteka i batch obradas.

O ovom programu možemo dobiti više informacija ili bilo koje novo ažuriranje na njihovoj službenoj stranici GitHub.

Instalacija na Ubuntu

aplikacija pokrenuta u pdf-u

Ovo je a primjena na više platformi i radi i na Gnu / Linuxu i na Windowsu. U narednim redovima vidjet ćemo postupak instalacije gImageReader-a u Ubuntu 18.04 kako je naznačeno u GitHub stranica projekta.

Dodajte PPA

Da bismo imali ovaj softver trebat će nam dodajte PPA spremište u naš sistem. To ćemo učiniti otvaranjem terminala (Ctrl + Alt + T) i upisivanjem sljedeće naredbe:

dodajte repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Instalirajte gImageReader

Nakon dostupnog ažuriranja softvera, sada to možemo nastavite s instaliranjem aplikacije upisivanje u isti terminal:

gImageReader instalacija

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Uz sve gore navedeno, gImageReader bi se trebao instalirati na vaš Ubuntu. Sada bismo trebali moći pokrenuti program na našem računaru.

pokretač aplikacija

Deinstaliraj

U slučaju da želimo deinstalirati gImageReaderU terminalu (Ctrl + Alt + T) trebat ćemo koristiti samo sljedeću naredbu:

uklonite gImageReader

sudo apt-get remove gimagereader -y

Da bismo dovršili eliminaciju programa, možemo izvršiti i:

sudo apt-get autoremove

PPA koji koristimo za instalaciju može se eliminirati iz našeg sistema upisivanjem u isti terminal:

deinstalirati gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader je jednostavan prednji kraj Gtk / Qt za teserakt-okr što pojednostavljuje čitav postupak izdvajanja ispisanog teksta iz slika. Omogućit će nam rad s datotekama, skeniranim slikama, PDF-om, zalijepljenim stavkama u međuspremnik itd. To je dobra opcija za uklanjanje teksta s naših slika lako i brzo.


Ostavite komentar

Vaša e-mail adresa neće biti objavljena. Obavezna polja su označena sa *

*

*

  1. Za podatke odgovoran: Miguel Ángel Gatón
  2. Svrha podataka: Kontrola neželjene pošte, upravljanje komentarima.
  3. Legitimacija: Vaš pristanak
  4. Komunikacija podataka: Podaci se neće dostavljati trećim stranama, osim po zakonskoj obavezi.
  5. Pohrana podataka: Baza podataka koju hostuje Occentus Networks (EU)
  6. Prava: U bilo kojem trenutku možete ograničiti, oporaviti i izbrisati svoje podatke.