„gImageReader“, OCR palaikanti PDF programa

apie gimagereader

Kitame straipsnyje apžvelgsime „gImageReader“. Tai programa priekinis variklio galas „Tesseract“ OCR. Tiems, kurie nežino „Tesseract“, pasakykite, kad tai yra optinio simbolių atpažinimo (OCR) variklis, kuris naudoja dirbtinį intelektą ieškodamas ir atpažindamas ant atvaizdų atspausdintą tekstą. Tai yra atviro kodo biblioteka ir vienas populiariausių OCR variklių rinkoje. Supaprastinkite visą spausdinto teksto išskyrimo iš vaizdų procesą leidžiantis vartotojams dirbti su failais, nuskaitytais vaizdais, PDF failais, įklijuotomis mainų srities elementais ir kt.

Šiandien visi vartotojai, nesvarbu, ar jie yra biuruose, namuose ir pan., Galime atsidurti situacijoje, kai turime išgauti tekstą iš paveikslėlio. Tai gali būti nuskaitytas atvaizdo formato dokumentas, popieriaus lapas ar senas tyrimo popierius. Galimybė, kurią pasirinktų daugelis vartotojų, būtų įvesti visą tekstą naudojant redaktorių, tačiau šis procesas gali užtrukti. Norėdami išvengti šio darbo, mes taip pat galime pasirinkti variantą naudokite OCR, kad tekstas būtų išgautas automatiškai.

„gImageReader“ pasiūlys mums daug funkcijų ir įrankių. Ši programa yra gera priemonė naudoti importavus a PDF arba nuskaitytas dokumentas ir tolesnis jo apdorojimas.

„GImageReader“ bendrosios funkcijos

ocr gImageReader

  • Mes sugebėsime importuoti PDF dokumentus ir vaizdus iš disko, nuskaitymo įrenginių, mainų srities ir ekrano kopijų. „gImageReader“ palaiko daugelio tipų failus. Tiesiog turėsime importuoti failus į įrankį ir išskleisti tekstą vienu paspaudimu.
  • Mes turėsime galimybę sugeneruoti PDF dokumentus iš hOCR dokumentų. „gImageReader“ palaiko tris ištrauktus teksto formatus, paprasto teksto, PDF ir hOCR formatus.
  • Įrankis suteiks mums galimybę apibrėžti rankinio ar automatinio atpažinimo sritį norėdami pasirinkti ištraukiamą tekstą.
  • Atpažintas tekstas rodomas tiesiai šalia vaizdo. Kaip matote aukščiau pateiktoje ekrano kopijoje.
  • Ištraukus į paprastą tekstą, „gImageReader“ atlieka veiksmus po apdorojimo, pvz Rašybos tikrinimas. Priklausomai nuo pasirinktos kalbos (pagal nutylėjimą yra All English), pabrėš žodžius, turinčius gramatinių klaidų. Be to, „gImageReader“ leidžia mums pasirinkti puslapio segmentavimo režimą, kurį norime naudoti ištraukiamam tekstui.
  • Skirtingai nuo kitų OCR įrankių, kuriuose vienu metu galime dirbti su vienu failu, „gImageReader“ palaiko daugelio failų importas ir jų paketinis apdorojimass.

Apie šią programą mes galime gauti daugiau informacijos ar bet kokį naują atnaujinimą savo oficialiame puslapyje GitHub.

Diegimas „Ubuntu“

programa veikia su pdf

Tai kryžminė platforma ir jis veikia tiek Gnu / Linux, tiek Windows. Šiose eilutėse pamatysime „gImageReader“ diegimo procesą „Ubuntu 18.04“ projekto „GitHub“ puslapį.

Pridėkite PPA

Norint turėti šią programinę įrangą mums reikės pridėkite PPA saugyklą prie mūsų sistemos. Tai padarysime atidarydami terminalą (Ctrl + Alt + T) ir įvesdami šią komandą:

pridėti repo „gImageReader“

sudo add-apt-repository ppa:sandromani/gimagereader

Įdiekite „gImageReader“

Po galimo programinės įrangos atnaujinimo galime tai padaryti dabar tęskite diegti programą rašyti tame pačiame terminale:

„gImageReader“ diegimas

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Atsižvelgiant į tai, kas išdėstyta pirmiau, „gImageReader“ turėtų būti įdiegta jūsų „Ubuntu“. Dabar turėtume turėti galimybę paleisti programą savo kompiuteryje.

programų paleidimo priemonė

Pašalinti

Jei norime pašalinkite „gImageReader“, terminale (Ctrl + Alt + T) turėsime naudoti tik šią komandą:

pašalinti „gImageReader“

sudo apt-get remove gimagereader -y

Norėdami užbaigti programos pašalinimą, mes taip pat galime vykdyti:

sudo apt-get autoremove

PPA, kurį naudojame diegimui, galima pašalinti iš mūsų sistemos įvedus tą patį terminalą:

pašalinti gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

„gImageReader“ yra paprastas priekinis „Gtk“ / „Qt“ tesseraktas-ocr kuris supaprastina visą spausdinto teksto išskyrimo iš vaizdų procesą. Tai leis mums dirbti su failais, nuskaitytais vaizdais, PDF, įklijuotomis mainų srities elementais ir kt. Tai yra gera galimybė lengvai ir greitai gauti tekstą iš mūsų vaizdų.


Straipsnio turinys atitinka mūsų principus redakcijos etika. Norėdami pranešti apie klaidą, spustelėkite čia.

Būkite pirmas, kuris pakomentuos

Palikite komentarą

Jūsų elektroninio pašto adresas nebus skelbiamas.

*

*

  1. Atsakingas už duomenis: Miguel Ángel Gatón
  2. Duomenų paskirtis: kontroliuoti šlamštą, komentarų valdymą.
  3. Įteisinimas: jūsų sutikimas
  4. Duomenų perdavimas: Duomenys nebus perduoti trečiosioms šalims, išskyrus teisinius įsipareigojimus.
  5. Duomenų saugojimas: „Occentus Networks“ (ES) talpinama duomenų bazė
  6. Teisės: bet kuriuo metu galite apriboti, atkurti ir ištrinti savo informaciją.

bool (tiesa)