Seuraavassa artikkelissa aiomme tarkastella gImageReaderia. Tämä on sovellus moottorin etupää Tesseract OCR. Niille, jotka eivät tunne Tesseractia, sano, että se on optisen merkintunnistuksen (OCR) moottori, joka käyttää tekoälyä kuviin painetun tekstin etsimiseen ja tunnistamiseen. Se on avoimen lähdekoodin kirjasto ja yksi markkinoiden suosituimmista OCR-moottoreista. Yksinkertaista tulostetun tekstin purkamista kuvista antaa käyttäjien työskennellä tiedostojen, skannattujen kuvien, PDF-tiedostojen, liitettyjen leikepöydän kohteiden jne. kanssa
Nykyään kaikki käyttäjät, toimistoissa, kodeissa jne., Voivat joutua tilanteeseen, jossa meidän on purettava tekstiä kuvasta. Se voi olla skannattu asiakirja kuvamuodossa, pala paperia tai vanha tutkimuspaperi. Vaihtoehto, jonka monet käyttäjät ottaisivat, on kirjoittaa koko teksti editorilla, mutta tämä prosessi voi olla aikaa vievää. Tämän työn välttämiseksi voimme myös valita vaihtoehdon poimi teksti automaattisesti OCR: n avulla.
gImageReader tarjoaa meille monia toimintoja ja työkaluja. Tämä sovellus on hyvä työkalu käytettäväksi a PDF tai skannattu asiakirja ja sen jatkokäsittely.
GImageReaderin yleiset ominaisuudet
- Pystymme tuoda PDF-asiakirjoja ja kuvia levyltä, skannauslaitteista, leikepöydältä ja kuvakaappauksista. gImageReader tukee monenlaisia tiedostoja. Meidän on yksinkertaisesti tuotava tiedostomme työkaluun ja pura teksti yhdellä napsautuksella.
- Meillä on mahdollisuus luoda PDF-dokumentteja hOCR-asiakirjoista. gImageReader tukee puretun tekstin, tavallisen tekstin, PDF: n ja hOCR-formaatin kolmea muotoa.
- Työkalu antaa meille mahdollisuuden määritä manuaalinen tai automaattinen tunnistusalue Valitse purettava teksti.
- Tunnistettu teksti näkyy suoraan kuvan vieressä. Kuten näet yllä olevasta kuvakaappauksesta.
- GImageReader suorittaa pelkkään tekstiin purkamisen jälkeen jälkikäsittelytoiminnot, kuten oikeinkirjoituksen tarkistus. Valitsemastamme kielestä riippuen (oletus on All English), korostaa sanoja, joilla on kielioppivirheitä. Lisäksi gImageReader antaa meille mahdollisuuden valita sivusegmentointitila, jota haluamme käyttää purettuun tekstiin.
- Toisin kuin muut OCR-työkalut, joissa voimme työskennellä yhden tiedoston kanssa kerrallaan, gImageReader tukee lukuisten tiedostojen tuonti ja niiden eräkäsittelys.
Tietoja tästä ohjelmasta voimme saada lisätietoja tai uusia päivityksiä heidän virallisella sivulla GitHub.
Asennus Ubuntuun
Tämä on cross platform -sovellus ja se toimii sekä Gnu / Linuxissa että Windowsissa. Seuraavilla riveillä näemme gImageReader-asennusprosessin Ubuntu 18.04: ssä, kuten kohdassa projektin GitHub-sivu.
Lisää PPA
Tarvitsemme tämän ohjelmiston lisää PPA-arkisto järjestelmäämme. Teemme tämän avaamalla pääte (Ctrl + Alt + T) ja kirjoittamalla seuraava komento:
sudo add-apt-repository ppa:sandromani/gimagereader
Asenna gImageReader
Kun ohjelmistopäivitys on saatavilla, voimme nyt jatka sovelluksen asentamista kirjoittamalla samaan päätelaitteeseen:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Kaikilla edellä mainituilla gImageReaderin tulisi asentaa Ubuntuun. Nyt meidän pitäisi pystyä käynnistämään ohjelma tietokoneellamme.
uninstall
Jos haluamme poista gImageReader, päätelaitteessa (Ctrl + Alt + T) meidän on käytettävä vain seuraavaa komentoa:
sudo apt-get remove gimagereader -y
Ohjelman poistamisen loppuun saattamiseksi voimme suorittaa myös:
sudo apt-get autoremove
Asennuksessa käytettävä PPA voidaan poistaa järjestelmästämme kirjoittamalla sama pääte:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader on yksinkertainen etupään Gtk / Qt tesseract-okr Tämä yksinkertaistaa koko tulostetun tekstin poimimista kuvista. Sen avulla voimme työskennellä tiedostojen, skannattujen kuvien, PDF: n, liitettyjen leikepöydän kohteiden jne. Kanssa. Tämä tekee siitä hyvän vaihtoehdon saada teksti pois kuvistamme helposti ja nopeasti.