V naslednjem članku si bomo ogledali gImageReader. To je aplikacija sprednji del za motor Tesseract OCR. Za tiste, ki ne poznajo Tesserakta, recite, da gre za mehanizem optičnega prepoznavanja znakov (OCR), ki z umetno inteligenco išče in prepozna besedilo, natisnjeno na slikah. Je odprtokodna knjižnica in eden izmed najbolj priljubljenih OCR mehanizmov na trgu. Poenostavite celoten postopek pridobivanja natisnjenega besedila iz slik omogoča uporabnikom delo z datotekami, optično prebranimi slikami, PDF-ji, prilepljenimi elementi odložišča itd.
Danes se lahko vsi uporabniki, bodisi v pisarnah, domovih itd., Znajdemo v situaciji, v kateri moramo iz slike izvleči besedilo. To je lahko optično prebrani dokument v slikovni obliki, kos papirja ali stara raziskovalna naloga. Možnost, ki bi jo uporabili mnogi uporabniki, bi bila vnos celotnega besedila z urejevalnikom, vendar je ta postopek lahko dolgotrajen. Da bi se temu delu izognili, se lahko odločimo tudi za možnost z OCR samodejno izvlecite besedilo.
gImageReader nam bo ponudil številne funkcije in orodja. Ta aplikacija je dobro orodje za uporabo po uvozu datoteke PDF ali optično prebrani dokument in njegova nadaljnja obdelava.
Splošne značilnosti GImageReader
- Bomo zmogli uvozite dokumente in slike PDF z diska, naprav za skeniranje, odložišča in posnetkov zaslona. gImageReader podpira številne vrste datotek. Preprosto bomo morali uvoziti datoteke v orodje in izvleči besedilo z enim klikom.
- Imeli bomo možnost ustvariti dokumente PDF iz dokumentov hOCR. gImageReader podpira tri oblike izvlečenega besedila, navadnega besedila, PDF in hOCR.
- Orodje nam bo dalo možnost določite območje ročnega ali samodejnega prepoznavanja , da izberete besedilo za izvleček.
- Prepoznano besedilo je prikazano neposredno ob sliki. Kot lahko vidite na zgornjem posnetku zaslona.
- Po ekstrakciji v navadno besedilo gImageReader izvede dejanja naknadne obdelave, kot je Preverjanje črkovanja. Glede na jezik, ki smo ga izbrali (privzeto je All English), bo podčrtala besede, ki imajo slovnične napake. Poleg tega nam gImageReader omogoča, da izberemo način segmentacije strani, ki ga želimo uporabiti za izvlečeno besedilo.
- Za razliko od drugih OCR orodij, kjer lahko hkrati delamo z eno datoteko, gImageReader podpira uvoz številnih datotek in njihova serijska obdelavas.
O tem programu lahko poiščite več informacij ali kakršno koli novo posodobitev na njihovi uradni strani GitHub.
Namestitev v Ubuntu
To je vmesna aplikacija in deluje tako na Gnu / Linux kot na Windows. V naslednjih vrsticah bomo videli postopek namestitve gImageReader v Ubuntu 18.04, kot je navedeno v strani GitHub projekta.
Dodajte PPA
Za uporabo te programske opreme bomo potrebovali dodajte repozitorij PPA v naš sistem. To bomo storili tako, da odpremo terminal (Ctrl + Alt + T) in vtipkamo naslednji ukaz:
sudo add-apt-repository ppa:sandromani/gimagereader
Namestite gImageReader
Ko je posodobitev programske opreme na voljo, lahko zdaj nadaljujte z namestitvijo aplikacije tipkanje v isti terminal:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Z vsem zgoraj navedenim se mora gImageReader namestiti v vaš Ubuntu. Zdaj bi morali program lahko zagnati v našem računalniku.
Odstrani
V primeru, da želimo odstrani gImageReader, v terminalu (Ctrl + Alt + T) bomo morali uporabiti le naslednji ukaz:
sudo apt-get remove gimagereader -y
Za dokončno odpravo programa lahko izvedemo tudi:
sudo apt-get autoremove
PPA, ki ga uporabljamo za namestitev, lahko iz našega sistema odstranimo tako, da vtipkamo v isti terminal:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader je preprost čelni Gtk / Qt za teserakt-okr kar poenostavi celoten postopek pridobivanja natisnjenega besedila iz slik. Omogočil nam bo delo z datotekami, optično prebranimi slikami, PDF-ji, prilepljenimi elementi odložišča itd. To je dobra izbira za enostavno in hitro odstranjevanje besedila z naših slik.