gImageReader, un'applicazione PDF capace di OCR

circa gimagereader

In u prossimu articulu emu da fà un ochju à gImageReader. Questa hè una app frontale per u mutore Tesseract OCR. Per quelli chì ùn cunnoscenu micca Tesseract, dite chì hè un mutore di ricunniscenza ottica di caratteri (OCR) chì usa l'intelligenza artificiale per circà è ricunnosce u testu stampatu nantu à l'imaghjini. Hè una libreria open source è unu di i motori OCR più popolari in u mercatu. Simplificà tuttu u prucessu di estrazione di testu stampatu da l'imaghjini permettendu à l'utilizatori di travaglià cù fugliali, imaghjini scannati, PDF, articuli appunti incollati, ecc.

Oghje tutti l'utilizatori, sia in uffizii, case, ecc., Pudemu truvà in una situazione in a quale avemu bisognu di estrarre testu da una maghjina. Puderia esse un documentu scannatu in furmatu di maghjina, un pezzu di carta, o un vechju articulu di ricerca. L'opzione chì parechji utilizatori piglianu seria di scrive tuttu u testu cù un editore, ma questu prucessu pò richiede assai tempu. Per evità stu travagliu, pudemu ancu optà per l'opzione di aduprà un OCR per estrarre u testu automaticamente.

gImageReader ci offre parechje funzioni è strumenti. Questa applicazione hè un bonu strumentu da aduprà dopu l'importazione di un PDF o u documentu scannatu è u so prucessu ulteriore.

GImageReader Caratteristiche Generali

ocr gImageReader

  • Puderemu impurtà documenti PDF è imagine da u discu, dispositivi di scansione, clipboard è screenshot. gImageReader supporta parechji tippi di fugliali. Simu solu da impurtà i nostri fugliali in u strumentu è strae testu cù un clic.
  • Averemu a pussibilità di generà documenti PDF da documenti hOCR. gImageReader supporta trè formati di testu estratti, testu chjaru, PDF è furmatu hOCR.
  • U strumentu ci darà a pussibilità di definisce una zona di ricunniscenza manuale o automatica per selezziunà u testu da estrarre.
  • U testu ricunnisciutu visualizatu direttamente accantu à l'imaghjina. Cumu pudete vede in a screenshot sopra.
  • Dopu avè estrattu in testu chjaru, gImageReader esegue azzioni di post-elaborazione, cume cuntrollu ortograficu. Sicondu a lingua chì sceglemu (u predefinitu hè Tuttu Inglese), sottolineerà e parolle chì anu errori grammaticali. Inoltre, gImageReader ci permette di selezziunà u modu di segmentazione di a pagina chì vulemu aduprà per u testu estrattu.
  • A differenza di altri strumenti OCR induve pudemu travaglià cù un fugliale à a volta, gImageReader supporta u impurtazione di numerosi fugliali è di a so trasfurmazione batchs.

À propositu di stu prugramma pudemu uttene più infurmazioni o qualsiasi novu aghjurnamentu in a so pagina ufficiale GitHub.

Installazione in Ubuntu

applicazione in esecuzione cù un pdf

Questu hè un applicazione multiplatform è funziona sia Gnu / Linux sia Windows. In e seguenti linee vedemu u prucessu di installazione gImageReader in Ubuntu 18.04 cum'è indicatu in a pagina GitHub di u prugettu.

Aghjunghjite u PPA

Per avè stu software averemu bisognu aghjunghje u repositoriu PPA à u nostru sistema. Faremu questu aprendu un terminal (Ctrl + Alt + T) è scrivendu u cumandimu seguitu:

aghjunghje repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Installa gImageReader

Dopu l'aghjurnamentu di u software dispunibule, pudemu avà procedi per installà l'applicazione scrivendu in u listessu terminal:

Installazione di gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Cù tuttu ciò sopra, gImageReader deve esse installatu nantu à u vostru Ubuntu. Avà duvemu pudè inizià u prugramma nantu à u nostru urdinatore.

lanciatore di app

Disinstalla

In casu vulemu disinstallà gImageReader, in un terminal (Ctrl + Alt + T) duveremu solu aduprà u cumandimu seguente:

caccià gImageReader

sudo apt-get remove gimagereader -y

Per finisce di eliminà u prugramma, pudemu ancu eseguisce:

sudo apt-get autoremove

U PPA chì usamu per l'installazione pò esse eliminatu da u nostru sistema scrivendu in u listessu terminal:

disinstallà gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader hè un semplice front-end Gtk / Qt per tesseract-ocr chì vene simplificendu tuttu u prucessu di estrazione di testu stampatu da l'imaghjini. Ci permetterà di travaglià cù fugliali, maghjine scannate, PDF, articuli appunti incollati, ecc. Questu face una bona opzione per uttene u testu fora di e nostre immagini facilmente è rapidamente.


U cuntenutu di l'articulu aderisce à i nostri principii di etica edituriale. Per signalà un errore cliccate quì.

Sianu the first to comment

Lasciate u vostru cummentariu

U vostru indirizzu email ùn esse publicatu.

*

*

  1. Responsabile di i dati: Miguel Ángel Gatón
  2. Scopu di i dati: Cuntrolla SPAM, gestione di cumenti.
  3. Legitimazione: U vostru accunsentu
  4. Cumunicazione di i dati: I dati ùn seranu micca cumunicati à terzi, eccettu per obbligazione legale.
  5. Archiviazione di dati: Base di dati ospitata da Occentus Networks (UE)
  6. Diritti: In ogni mumentu pudete limità, recuperà è cancellà e vostre informazioni.