I neste artikkel skal vi ta en titt på gImageReader. Dette er en app frontenden for motoren Tesseract OCR. For de som ikke kjenner Tesseract, si at det er en OCR-motor (optisk tegngjenkjenning) som bruker kunstig intelligens til å søke og gjenkjenne tekst som er trykt på bilder. Det er et open source-bibliotek og en av de mest populære OCR-motorene på markedet. Forenkle hele prosessen med å trekke ut utskrevet tekst fra bilder slik at brukere kan arbeide med filer, skannede bilder, PDF-filer, limte utklippstavleelementer, etc.
I dag kan alle brukere, enten det er i kontorer, hjem osv., Komme i en situasjon der vi trenger å trekke ut tekst fra et bilde. Det kan være et skannet dokument i bildeformat, et stykke papir eller et gammelt forskningspapir. Alternativet som mange brukere ville ta, ville være å skrive inn all teksten ved hjelp av en editor, men denne prosessen kan være tidkrevende. For å unngå dette arbeidet kan vi også velge alternativet bruk en OCR for å trekke ut teksten automatisk.
gImageReader vil tilby oss mange funksjoner og verktøy. Dette programmet er et godt verktøy å bruke etter import av en PDF eller det skannede dokumentet og videre behandling.
GImageReader Generelle funksjoner
- Vi klarer det importere PDF-dokumenter og bilder fra disk, skanneenheter, utklippstavle og skjermbilder. gImageReader støtter mange typer filer. Vi må ganske enkelt importere filene våre til verktøyet og trekk ut tekst med ett klikk.
- Det vil vi ha generere PDF-dokumenter fra hOCR-dokumenter. gImageReader støtter tre formater for utpakket tekst, ren tekst, PDF og hOCR-format.
- Verktøyet vil gi oss muligheten for definere et manuelt eller automatisk gjenkjenningsområde for å velge teksten du vil trekke ut.
- Den gjenkjente teksten vises rett ved siden av bildet. Som du kan se i skjermbildet ovenfor.
- Etter utpakking til ren tekst, utfører gImageReader handlinger etterbehandling, for eksempel stavekontroll. Avhengig av hvilket språk vi velger (standard er engelsk), vil understreke ordene som har grammatiske feil. I tillegg lar gImageReader oss velge sidesegmenteringsmodusen vi vil bruke for den ekstraherte teksten.
- I motsetning til andre OCR-verktøy der vi kan jobbe med en fil om gangen, støtter gImageReader import av mange filer og deres batchbehandlings.
Om dette programmet kan vi få mer informasjon eller ny oppdatering på deres offisielle side GitHub.
Installasjon på Ubuntu
Dette er en kryssplattform-applikasjon og det fungerer både på Gnu / Linux og Windows. I de følgende linjene vil vi se installasjonsprosessen for gImageReader i Ubuntu 18.04 som angitt i prosjektets GitHub-side.
Legg til PPA
For å ha denne programvaren trenger vi legg til PPA-depotet til systemet vårt. Vi vil gjøre dette ved å åpne en terminal (Ctrl + Alt + T) og skrive følgende kommando:
sudo add-apt-repository ppa:sandromani/gimagereader
Installer gImageReader
Etter at programvareoppdateringen er tilgjengelig, kan vi nå fortsett med å installere applikasjonen å skrive i samme terminal:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Med alt det ovennevnte, bør gImageReader installere på Ubuntu. Nå skal vi kunne starte programmet på datamaskinen vår.
avinstallere
I tilfelle vi vil avinstaller gImageReader, i en terminal (Ctrl + Alt + T) trenger vi bare å bruke følgende kommando:
sudo apt-get remove gimagereader -y
For å fullføre eliminering av programmet kan vi også utføre:
sudo apt-get autoremove
PPA som vi bruker for installasjonen kan fjernes fra systemet vårt ved å skrive i samme terminal:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader er enkelt front-end Gtk / Qt for tesseract-ocr som forenkler hele prosessen med å trekke ut trykt tekst fra bilder. Det vil tillate oss å jobbe med filer, skannede bilder, PDF, limte utklippstavleelementer, etc. Dette gjør det til et godt alternativ å få teksten ut av bildene våre enkelt og raskt.