gImageReader, aplikacija PDF, ki podpira OCR

o bralniku slik

V naslednjem članku si bomo ogledali gImageReader. To je aplikacija sprednji del za motor Tesseract OCR. Za tiste, ki ne poznajo Tesserakta, recite, da gre za mehanizem optičnega prepoznavanja znakov (OCR), ki z umetno inteligenco išče in prepozna besedilo, natisnjeno na slikah. Je odprtokodna knjižnica in eden izmed najbolj priljubljenih OCR mehanizmov na trgu. Poenostavite celoten postopek pridobivanja natisnjenega besedila iz slik omogoča uporabnikom delo z datotekami, optično prebranimi slikami, PDF-ji, prilepljenimi elementi odložišča itd.

Danes se lahko vsi uporabniki, bodisi v pisarnah, domovih itd., Znajdemo v situaciji, v kateri moramo iz slike izvleči besedilo. To je lahko optično prebrani dokument v slikovni obliki, kos papirja ali stara raziskovalna naloga. Možnost, ki bi jo uporabili mnogi uporabniki, bi bila vnos celotnega besedila z urejevalnikom, vendar je ta postopek lahko dolgotrajen. Da bi se temu delu izognili, se lahko odločimo tudi za možnost z OCR samodejno izvlecite besedilo.

gImageReader nam bo ponudil številne funkcije in orodja. Ta aplikacija je dobro orodje za uporabo po uvozu datoteke PDF ali optično prebrani dokument in njegova nadaljnja obdelava.

Splošne značilnosti GImageReader

ocr gImageReader

  • Bomo zmogli uvozite dokumente in slike PDF z diska, naprav za skeniranje, odložišča in posnetkov zaslona. gImageReader podpira številne vrste datotek. Preprosto bomo morali uvoziti datoteke v orodje in izvleči besedilo z enim klikom.
  • Imeli bomo možnost ustvariti dokumente PDF iz dokumentov hOCR. gImageReader podpira tri oblike izvlečenega besedila, navadnega besedila, PDF in hOCR.
  • Orodje nam bo dalo možnost določite območje ročnega ali samodejnega prepoznavanja , da izberete besedilo za izvleček.
  • Prepoznano besedilo je prikazano neposredno ob sliki. Kot lahko vidite na zgornjem posnetku zaslona.
  • Po ekstrakciji v navadno besedilo gImageReader izvede dejanja naknadne obdelave, kot je Preverjanje črkovanja. Glede na jezik, ki smo ga izbrali (privzeto je All English), bo podčrtala besede, ki imajo slovnične napake. Poleg tega nam gImageReader omogoča, da izberemo način segmentacije strani, ki ga želimo uporabiti za izvlečeno besedilo.
  • Za razliko od drugih OCR orodij, kjer lahko hkrati delamo z eno datoteko, gImageReader podpira uvoz številnih datotek in njihova serijska obdelavas.

O tem programu lahko poiščite več informacij ali kakršno koli novo posodobitev na njihovi uradni strani GitHub.

Namestitev v Ubuntu

aplikacija, ki se izvaja s pdf

To je vmesna aplikacija in deluje tako na Gnu / Linux kot na Windows. V naslednjih vrsticah bomo videli postopek namestitve gImageReader v Ubuntu 18.04, kot je navedeno v strani GitHub projekta.

Dodajte PPA

Za uporabo te programske opreme bomo potrebovali dodajte repozitorij PPA v naš sistem. To bomo storili tako, da odpremo terminal (Ctrl + Alt + T) in vtipkamo naslednji ukaz:

dodaj repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Namestite gImageReader

Ko je posodobitev programske opreme na voljo, lahko zdaj nadaljujte z namestitvijo aplikacije tipkanje v isti terminal:

namestitev gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Z vsem zgoraj navedenim se mora gImageReader namestiti v vaš Ubuntu. Zdaj bi morali program lahko zagnati v našem računalniku.

zaganjalnik aplikacij

Odstrani

V primeru, da želimo odstrani gImageReader, v terminalu (Ctrl + Alt + T) bomo morali uporabiti le naslednji ukaz:

odstrani gImageReader

sudo apt-get remove gimagereader -y

Za dokončno odpravo programa lahko izvedemo tudi:

sudo apt-get autoremove

PPA, ki ga uporabljamo za namestitev, lahko iz našega sistema odstranimo tako, da vtipkamo v isti terminal:

odstrani gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader je preprost čelni Gtk / Qt za teserakt-okr kar poenostavi celoten postopek pridobivanja natisnjenega besedila iz slik. Omogočil nam bo delo z datotekami, optično prebranimi slikami, PDF-ji, prilepljenimi elementi odložišča itd. To je dobra izbira za enostavno in hitro odstranjevanje besedila z naših slik.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.