gImageReader, un'applicazione PDF compatibile con OCR

su gimagereader

Nel prossimo articolo daremo uno sguardo a gImageReader. Questa è un'app estremità anteriore per il motore Tesseract OCR. Per coloro che non conoscono Tesseract, dire che si tratta di un motore di riconoscimento ottico dei caratteri (OCR) che utilizza l'intelligenza artificiale per cercare e riconoscere il testo stampato sulle immagini. È una libreria open source e uno dei motori OCR più popolari sul mercato. Semplifica l'intero processo di estrazione del testo stampato dalle immagini consentendo agli utenti di lavorare con file, immagini scansionate, PDF, elementi degli appunti incollati, ecc.

Oggi tutti gli utenti, siano essi uffici, case, ecc., Possono trovarsi in una situazione in cui è necessario estrarre del testo da un'immagine. Potrebbe essere un documento scansionato in formato immagine, un pezzo di carta o un vecchio documento di ricerca. L'opzione che molti utenti avrebbero scelto sarebbe quella di digitare tutto il testo utilizzando un editor, ma questo processo può richiedere molto tempo. Per evitare questo lavoro, possiamo anche optare per l'opzione di utilizzare un OCR per estrarre il testo automaticamente.

gImageReader ci offrirà molte funzioni e strumenti. Questa applicazione è un ottimo strumento da utilizzare dopo aver importato un file PDF o il documento scansionato e la sua ulteriore elaborazione.

Caratteristiche generali di GImageReader

ocr gImageReader

  • Saremo in grado importa documenti PDF e immagini da disco, dispositivi di scansione, appunti e screenshot. gImageReader supporta molti tipi di file. Dovremo semplicemente importare i nostri file nello strumento e estrai il testo con un clic.
  • Avremo la possibilità di generare documenti PDF da documenti hOCR. gImageReader supporta tre formati di testo estratto, testo normale, PDF e formato hOCR.
  • Lo strumento ci darà la possibilità di definire un'area di riconoscimento manuale o automatico per selezionare il testo da estrarre.
  • Il testo riconosciuto visualizzato direttamente accanto all'immagine. Come puoi vedere nello screenshot qui sopra.
  • Dopo l'estrazione in testo normale, gImageReader esegue azioni di post-elaborazione, come controllo ortografico. A seconda della lingua che scegliamo (l'impostazione predefinita è tutto inglese), sottolineerà le parole che contengono errori grammaticali. Inoltre, gImageReader ci consente di selezionare la modalità di segmentazione della pagina che vogliamo utilizzare per il testo estratto.
  • A differenza di altri strumenti OCR in cui possiamo lavorare con un file alla volta, gImageReader supporta l'estensione importazione di numerosi file e loro elaborazione in batchs.

Su questo programma possiamo ottenere maggiori informazioni o qualsiasi nuovo aggiornamento sulla loro pagina ufficiale GitHub.

Installazione su Ubuntu

applicazione in esecuzione con un pdf

Questo è un applicazione multipiattaforma e funziona sia su Gnu / Linux che su Windows. Nelle righe seguenti vedremo il processo di installazione di gImageReader in Ubuntu 18.04 come indicato in la pagina GitHub del progetto.

Aggiungi il PPA

Per avere questo software avremo bisogno di aggiungere il repository PPA al nostro sistema. Lo faremo aprendo un terminale (Ctrl + Alt + T) e digitando il seguente comando:

aggiungi repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Installa gImageReader

Dopo l'aggiornamento del software disponibile, ora possiamo procedere con l'installazione dell'applicazione digitando nello stesso terminale:

installazione di gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Con tutto quanto sopra, gImageReader dovrebbe essere installato su Ubuntu. Ora dovremmo essere in grado di avviare il programma sul nostro computer.

lanciatore di app

disinstallazione

Nel caso lo desideriamo disinstallare gImageReader, in un terminale (Ctrl + Alt + T) dovremo usare solo il seguente comando:

rimuovere gImageReader

sudo apt-get remove gimagereader -y

Per finire di eliminare il programma, possiamo anche eseguire:

sudo apt-get autoremove

Il PPA che utilizziamo per l'installazione può essere eliminato dal nostro sistema digitando nello stesso terminale:

disinstallare gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader è un semplice file front-end Gtk / Qt per tesseract-ocr ciò semplifica l'intero processo di estrazione del testo stampato dalle immagini. Ci consentirà di lavorare con file, immagini scansionate, PDF, elementi degli appunti incollati, ecc. Questo lo rende una buona opzione per ottenere facilmente e rapidamente il testo dalle nostre immagini.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.