gImageReader, OCR-yhteensopiva PDF-sovellus

noin gimagereader

Seuraavassa artikkelissa aiomme tarkastella gImageReaderia. Tämä on sovellus moottorin etupää Tesseract OCR. Niille, jotka eivät tunne Tesseractia, sano, että se on optisen merkintunnistuksen (OCR) moottori, joka käyttää tekoälyä kuviin painetun tekstin etsimiseen ja tunnistamiseen. Se on avoimen lähdekoodin kirjasto ja yksi markkinoiden suosituimmista OCR-moottoreista. Yksinkertaista tulostetun tekstin purkamista kuvista antaa käyttäjien työskennellä tiedostojen, skannattujen kuvien, PDF-tiedostojen, liitettyjen leikepöydän kohteiden jne. kanssa

Nykyään kaikki käyttäjät, toimistoissa, kodeissa jne., Voivat joutua tilanteeseen, jossa meidän on purettava tekstiä kuvasta. Se voi olla skannattu asiakirja kuvamuodossa, pala paperia tai vanha tutkimuspaperi. Vaihtoehto, jonka monet käyttäjät ottaisivat, on kirjoittaa koko teksti editorilla, mutta tämä prosessi voi olla aikaa vievää. Tämän työn välttämiseksi voimme myös valita vaihtoehdon poimi teksti automaattisesti OCR: n avulla.

gImageReader tarjoaa meille monia toimintoja ja työkaluja. Tämä sovellus on hyvä työkalu käytettäväksi a PDF tai skannattu asiakirja ja sen jatkokäsittely.

GImageReaderin yleiset ominaisuudet

ocr gImageReader

  • Pystymme tuoda PDF-asiakirjoja ja kuvia levyltä, skannauslaitteista, leikepöydältä ja kuvakaappauksista. gImageReader tukee monenlaisia ​​tiedostoja. Meidän on yksinkertaisesti tuotava tiedostomme työkaluun ja pura teksti yhdellä napsautuksella.
  • Meillä on mahdollisuus luoda PDF-dokumentteja hOCR-asiakirjoista. gImageReader tukee puretun tekstin, tavallisen tekstin, PDF: n ja hOCR-formaatin kolmea muotoa.
  • Työkalu antaa meille mahdollisuuden määritä manuaalinen tai automaattinen tunnistusalue Valitse purettava teksti.
  • Tunnistettu teksti näkyy suoraan kuvan vieressä. Kuten näet yllä olevasta kuvakaappauksesta.
  • GImageReader suorittaa pelkkään tekstiin purkamisen jälkeen jälkikäsittelytoiminnot, kuten oikeinkirjoituksen tarkistus. Valitsemastamme kielestä riippuen (oletus on All English), korostaa sanoja, joilla on kielioppivirheitä. Lisäksi gImageReader antaa meille mahdollisuuden valita sivusegmentointitila, jota haluamme käyttää purettuun tekstiin.
  • Toisin kuin muut OCR-työkalut, joissa voimme työskennellä yhden tiedoston kanssa kerrallaan, gImageReader tukee lukuisten tiedostojen tuonti ja niiden eräkäsittelys.

Tietoja tästä ohjelmasta voimme saada lisätietoja tai uusia päivityksiä heidän virallisella sivulla GitHub.

Asennus Ubuntuun

sovellus, joka toimii pdf-tiedostona

Tämä on cross platform -sovellus ja se toimii sekä Gnu / Linuxissa että Windowsissa. Seuraavilla riveillä näemme gImageReader-asennusprosessin Ubuntu 18.04: ssä, kuten kohdassa projektin GitHub-sivu.

Lisää PPA

Tarvitsemme tämän ohjelmiston lisää PPA-arkisto järjestelmäämme. Teemme tämän avaamalla pääte (Ctrl + Alt + T) ja kirjoittamalla seuraava komento:

lisää repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Asenna gImageReader

Kun ohjelmistopäivitys on saatavilla, voimme nyt jatka sovelluksen asentamista kirjoittamalla samaan päätelaitteeseen:

gImageReader-asennus

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Kaikilla edellä mainituilla gImageReaderin tulisi asentaa Ubuntuun. Nyt meidän pitäisi pystyä käynnistämään ohjelma tietokoneellamme.

sovellusten käynnistysohjelma

uninstall

Jos haluamme poista gImageReader, päätelaitteessa (Ctrl + Alt + T) meidän on käytettävä vain seuraavaa komentoa:

poista gImageReader

sudo apt-get remove gimagereader -y

Ohjelman poistamisen loppuun saattamiseksi voimme suorittaa myös:

sudo apt-get autoremove

Asennuksessa käytettävä PPA voidaan poistaa järjestelmästämme kirjoittamalla sama pääte:

poista gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader on yksinkertainen etupään Gtk / Qt tesseract-okr Tämä yksinkertaistaa koko tulostetun tekstin poimimista kuvista. Sen avulla voimme työskennellä tiedostojen, skannattujen kuvien, PDF: n, liitettyjen leikepöydän kohteiden jne. Kanssa. Tämä tekee siitä hyvän vaihtoehdon saada teksti pois kuvistamme helposti ja nopeasti.


Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

*

*

  1. Vastuussa tiedoista: Miguel Ángel Gatón
  2. Tietojen tarkoitus: Roskapostin hallinta, kommenttien hallinta.
  3. Laillistaminen: Suostumuksesi
  4. Tietojen välittäminen: Tietoja ei luovuteta kolmansille osapuolille muutoin kuin lain nojalla.
  5. Tietojen varastointi: Occentus Networks (EU) isännöi tietokantaa
  6. Oikeudet: Voit milloin tahansa rajoittaa, palauttaa ja poistaa tietojasi.