gImageReader, një aplikacion PDF i aftë për OCR

rreth gimagereader

Në artikullin vijues do të hedhim një vështrim në gImageReader. Ky është një aplikacion pjesa e përparme e motorit OCR Tesseract. Për ata që nuk e njohin Tesseract, thoni se është një motor optik i njohjes së karakterit (OCR) që përdor inteligjencën artificiale për të kërkuar dhe njohur tekstin e shtypur në imazhe. Isshtë një bibliotekë me burim të hapur dhe një nga motorët më të njohur OCR në treg. Thjeshtoni të gjithë procesin e nxjerrjes së tekstit të shtypur nga imazhet lejimi i përdoruesve të punojnë me skedarë, imazhe të skanuara, PDF, artikuj të ngjitur të clipboard, etj.

Sot të gjithë përdoruesit, qofshin në zyra, shtëpi, etj., Ne mund të gjendemi në një situatë në të cilën duhet të nxjerrim tekst nga një imazh. Mund të jetë një dokument i skanuar në formatin e imazhit, një copë letër, ose një letër e vjetër kërkimore. Opsioni që shumë përdorues do të merrnin do të ishte të shkruanin të gjithë tekstin duke përdorur një redaktor, por ky proces mund të marrë kohë. Për të shmangur këtë punë, ne gjithashtu mund të zgjedhim opsionin e përdorni një OCR për të nxjerrë automatikisht tekstin.

gImageReader do të na ofrojë shumë funksione dhe mjete. Ky aplikacion është një mjet i mirë për t'u përdorur pas importimit të një PDF ose dokumentin e skanuar dhe përpunimin e tij të mëtejshëm.

Karakteristikat e përgjithshme të GImageReader

okr gImageReader

  • Ne do të jemi në gjendje importoni dokumente dhe imazhe PDF nga disku, pajisjet e skanimit, clipboard dhe pamjet e ekranit. gImageReader mbështet shumë lloje skedarësh. Ne thjesht do të duhet të importojmë skedarët tanë në mjet dhe ekstraktoni tekstin me një klikim.
  • Ne do të kemi mundësinë e gjeneroni dokumente PDF nga dokumentet e hOCR. gImageReader mbështet tre formate të tekstit të nxjerrë, tekst të thjeshtë, format PDF dhe hOCR.
  • Mjeti do të na japë mundësinë e përcaktoni një zonë të njohjes manuale ose automatike për të zgjedhur tekstin për të nxjerrë.
  • Teksti i njohur shfaqet direkt pranë figurës. Siç mund ta shihni në pamjen e mësipërme të ekranit.
  • Pas nxjerrjes në një tekst të thjeshtë, gImageReader kryen veprime pas përpunimit, të tilla si kontrolli drejtshkrimor. Në varësi të gjuhës që zgjedhim (parazgjedhja është Gjithë Anglishtja), do të nënvizojë fjalët që kanë gabime gramatikore. Për më tepër, gImageReader na lejon të zgjedhim mënyrën e segmentimit të faqes që duam të përdorim për tekstin e nxjerrë.
  • Ndryshe nga mjetet e tjera OCR ku mund të punojmë me një skedar në të njëjtën kohë, gImageReader mbështet importimi i skedarëve të shumtë dhe përpunimi i tyre në grupes.

Për këtë program mundemi merrni më shumë informacion ose ndonjë azhurnim të ri në faqen e tyre zyrtare GitHub.

Instalimi në Ubuntu

aplikacioni që ekzekutohet me një pdf

Kjo është një aplikacioni i platformës kryq dhe funksionon si në Gnu / Linux ashtu edhe në Windows. Në linjat vijuese do të shohim procesin e instalimit të gImageReader në Ubuntu 18.04 siç tregohet në faqja e projektit GitHub.

Shtoni APP-në

Për të pasur këtë softuer do të na duhet shtoni depon e PPA në sistemin tonë. Ne do ta bëjmë këtë duke hapur një terminal (Ctrl + Alt + T) dhe shtypur komandën e mëposhtme:

shtoni repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Instaloni gImageReader

Pas azhurnimit të softuerit të disponueshëm, tani mundemi vazhdoni të instaloni aplikacionin shtypni në të njëjtin terminal:

instalimi i gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Me të gjitha sa më sipër, gImageReader duhet të instalohet në Ubuntu tuaj. Tani ne duhet të jemi në gjendje të fillojmë programin në kompjuterin tonë.

lëshuesi i aplikacioneve

uninstall

Në rast se duam çinstaloni gImageReader, në një terminal (Ctrl + Alt + T) do të duhet të përdorim vetëm komandën e mëposhtme:

hiqni gImageReader

sudo apt-get remove gimagereader -y

Për të përfunduar eliminimin e programit, ne gjithashtu mund të ekzekutojmë:

sudo apt-get autoremove

PPA që ne përdorim për instalimin mund të eliminohet nga sistemi ynë duke shtypur në të njëjtin terminal:

çinstaloni gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader është e thjeshtë front-fund Gtk / Qt për tesseract-okr që vjen duke thjeshtuar të gjithë procesin e nxjerrjes së tekstit të shtypur nga imazhet. Kjo do të na lejojë të punojmë me skedarë, imazhe të skanuara, PDF, artikuj të ngjitur të clipboard, etj. Kjo e bën atë një mundësi të mirë për të marrë tekstin nga imazhet tona lehtë dhe shpejt.


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.