gImageReader, en OCR-kompatibel PDF-applikation

om billedlæser

I den næste artikel skal vi se på gImageReader. Dette er en app forende til motor Tesseract OCR. For dem der ikke kender Tesseract, skal du sige, at det er en OCR-motor (optisk karaktergenkendelse), der bruger kunstig intelligens til at søge og genkende tekst, der er trykt på billeder. Det er et open source-bibliotek og en af ​​de mest populære OCR-motorer på markedet. Forenkle hele processen med at udtrække udskrevet tekst fra billeder tillader brugere at arbejde med filer, scannede billeder, PDF-filer, indsatte udklipsholderemner osv.

I dag kan vi alle brugere, hvad enten det er i kontorer, hjem osv., Befinde os i en situation, hvor vi har brug for at udtrække tekst fra et billede. Det kunne være et scannet dokument i billedformat, et stykke papir eller et gammelt forskningspapir. Den mulighed, som mange brugere ville tage, ville være at skrive al teksten ved hjælp af en editor, men denne proces kan være tidskrævende. For at undgå dette arbejde kan vi også vælge muligheden for brug en OCR til automatisk at udtrække teksten.

gImageReader tilbyder os mange funktioner og værktøjer. Denne applikation er et godt værktøj at bruge efter import af en PDF eller det scannede dokument og dets videre behandling.

GImageReader Generelle funktioner

ocr gImageReader

  • Vi kan importere PDF-dokumenter og billeder fra disk, scanningsenheder, udklipsholder og skærmbilleder. gImageReader understøtter mange typer filer. Vi bliver simpelthen nødt til at importere vores filer til værktøjet og udtræk tekst med et enkelt klik.
  • Vi får muligheden for generere PDF-dokumenter fra hOCR-dokumenter. gImageReader understøtter tre udpakkede tekstformater, almindelig tekst, PDF og hOCR-format.
  • Værktøjet giver os muligheden for definere et manuelt eller automatisk genkendelsesområde for at vælge den tekst, der skal udpakkes.
  • Den genkendte tekst vises direkte ved siden af ​​billedet. Som du kan se i ovenstående skærmbillede.
  • Efter udpakning til almindelig tekst udfører gImageReader handlinger efter behandling, f.eks stavekontrol. Afhængigt af det sprog vi vælger (standard er engelsk), vil understrege ord, der har grammatiske fejl. Derudover giver gImageReader os mulighed for at vælge den sidesegmenteringstilstand, som vi vil bruge til den udpakkede tekst.
  • I modsætning til andre OCR-værktøjer, hvor vi kan arbejde med en fil ad gangen, understøtter gImageReader import af mange filer og deres batchbehandlings.

Om dette program kan vi få flere oplysninger eller enhver ny opdatering på deres officielle side GitHub.

Installation på Ubuntu

applikation, der kører med en pdf

Dette er et cross platform ansøgning og det fungerer på både Gnu / Linux og Windows. I de følgende linjer vil vi se installationsprocessen for gImageReader i Ubuntu 18.04 som angivet i projektets GitHub-side.

Tilføj PPA

For at have denne software har vi brug for tilføj PPA-arkivet til vores system. Vi gør dette ved at åbne en terminal (Ctrl + Alt + T) og skrive følgende kommando:

tilføj repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Installer gImageReader

Efter tilgængelig softwareopdatering kan vi nu fortsæt med at installere applikationen at skrive i den samme terminal:

gImageReader installation

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Med alt det ovenstående skal gImageReader installere på din Ubuntu. Nu skal vi være i stand til at starte programmet på vores computer.

app-launcher

afinstallere

Hvis vi ønsker det afinstaller gImageReader, i en terminal (Ctrl + Alt + T) behøver vi kun bruge følgende kommando:

fjern gImageReader

sudo apt-get remove gimagereader -y

For at afslutte eliminering af programmet kan vi også udføre:

sudo apt-get autoremove

Den PPA, som vi bruger til installationen, kan fjernes fra vores system ved at indtaste den samme terminal:

afinstallere gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader er en simpel front-end Gtk / Qt til tesseract-ocr der forenkler hele processen med at udtrække udskrevet tekst fra billeder. Det giver os mulighed for at arbejde med filer, scannede billeder, PDF, indsatte udklipsholderemner osv. Dette gør det til en god mulighed at få teksten ud af vores billeder nemt og hurtigt.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.