In u prossimu articulu emu da fà un ochju à gImageReader. Questa hè una app frontale per u mutore Tesseract OCR. Per quelli chì ùn cunnoscenu micca Tesseract, dite chì hè un mutore di ricunniscenza ottica di caratteri (OCR) chì usa l'intelligenza artificiale per circà è ricunnosce u testu stampatu nantu à l'imaghjini. Hè una libreria open source è unu di i motori OCR più popolari in u mercatu. Simplificà tuttu u prucessu di estrazione di testu stampatu da l'imaghjini permettendu à l'utilizatori di travaglià cù fugliali, imaghjini scannati, PDF, articuli appunti incollati, ecc.
Oghje tutti l'utilizatori, sia in uffizii, case, ecc., Pudemu truvà in una situazione in a quale avemu bisognu di estrarre testu da una maghjina. Puderia esse un documentu scannatu in furmatu di maghjina, un pezzu di carta, o un vechju articulu di ricerca. L'opzione chì parechji utilizatori piglianu seria di scrive tuttu u testu cù un editore, ma questu prucessu pò richiede assai tempu. Per evità stu travagliu, pudemu ancu optà per l'opzione di aduprà un OCR per estrarre u testu automaticamente.
gImageReader ci offre parechje funzioni è strumenti. Questa applicazione hè un bonu strumentu da aduprà dopu l'importazione di un PDF o u documentu scannatu è u so prucessu ulteriore.
Index
GImageReader Caratteristiche Generali
- Puderemu impurtà documenti PDF è imagine da u discu, dispositivi di scansione, clipboard è screenshot. gImageReader supporta parechji tippi di fugliali. Simu solu da impurtà i nostri fugliali in u strumentu è strae testu cù un clic.
- Averemu a pussibilità di generà documenti PDF da documenti hOCR. gImageReader supporta trè formati di testu estratti, testu chjaru, PDF è furmatu hOCR.
- U strumentu ci darà a pussibilità di definisce una zona di ricunniscenza manuale o automatica per selezziunà u testu da estrarre.
- U testu ricunnisciutu visualizatu direttamente accantu à l'imaghjina. Cumu pudete vede in a screenshot sopra.
- Dopu avè estrattu in testu chjaru, gImageReader esegue azzioni di post-elaborazione, cume cuntrollu ortograficu. Sicondu a lingua chì sceglemu (u predefinitu hè Tuttu Inglese), sottolineerà e parolle chì anu errori grammaticali. Inoltre, gImageReader ci permette di selezziunà u modu di segmentazione di a pagina chì vulemu aduprà per u testu estrattu.
- A differenza di altri strumenti OCR induve pudemu travaglià cù un fugliale à a volta, gImageReader supporta u impurtazione di numerosi fugliali è di a so trasfurmazione batchs.
À propositu di stu prugramma pudemu uttene più infurmazioni o qualsiasi novu aghjurnamentu in a so pagina ufficiale GitHub.
Installazione in Ubuntu
Questu hè un applicazione multiplatform è funziona sia Gnu / Linux sia Windows. In e seguenti linee vedemu u prucessu di installazione gImageReader in Ubuntu 18.04 cum'è indicatu in a pagina GitHub di u prugettu.
Aghjunghjite u PPA
Per avè stu software averemu bisognu aghjunghje u repositoriu PPA à u nostru sistema. Faremu questu aprendu un terminal (Ctrl + Alt + T) è scrivendu u cumandimu seguitu:
sudo add-apt-repository ppa:sandromani/gimagereader
Installa gImageReader
Dopu l'aghjurnamentu di u software dispunibule, pudemu avà procedi per installà l'applicazione scrivendu in u listessu terminal:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Cù tuttu ciò sopra, gImageReader deve esse installatu nantu à u vostru Ubuntu. Avà duvemu pudè inizià u prugramma nantu à u nostru urdinatore.
Disinstalla
In casu vulemu disinstallà gImageReader, in un terminal (Ctrl + Alt + T) duveremu solu aduprà u cumandimu seguente:
sudo apt-get remove gimagereader -y
Per finisce di eliminà u prugramma, pudemu ancu eseguisce:
sudo apt-get autoremove
U PPA chì usamu per l'installazione pò esse eliminatu da u nostru sistema scrivendu in u listessu terminal:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader hè un semplice front-end Gtk / Qt per tesseract-ocr chì vene simplificendu tuttu u prucessu di estrazione di testu stampatu da l'imaghjini. Ci permetterà di travaglià cù fugliali, maghjine scannate, PDF, articuli appunti incollati, ecc. Questu face una bona opzione per uttene u testu fora di e nostre immagini facilmente è rapidamente.
Sianu the first to comment