гИмагеРеадер, ПДФ апликација која подржава ОЦР

абоут гимагереадер

У следећем чланку ћемо погледати гИмагеРеадер. Ово је апликација предњи део за мотор Тессерацт ОЦР. За оне који не познају Тессерацт, реците да је то машина за оптичко препознавање знакова (ОЦР) која користи вештачку интелигенцију за претрагу и препознавање штампаног текста на сликама. То је библиотека отвореног кода и један од најпопуларнијих ОЦР механизама на тржишту. Поједностављује цео процес издвајања штампаног текста из слика омогућавајући корисницима да раде са датотекама, скенираним сликама, ПДФ-овима, налепљеним ставкама међуспремника итд.

Данас се сви корисници, било у канцеларијама, кућама итд., могу наћи у ситуацији у којој морамо да извучемо текст из слике. То може бити скенирани документ у формату слике, комад папира или стари истраживачки рад. Опција коју би многи корисници користили би била да напишу сав текст помоћу уређивача, али овај процес може бити дуготрајан. Да бисмо избегли овај посао, можемо изабрати и опцију од користите ОЦР за аутоматско издвајање текста.

гИмагеРеадер ће нам понудити много функција и алата. Ова апликација је добар алат за коришћење након увоза а пдф или скенираног документа и његове накнадне обраде.

Опште карактеристике гИмагеРеадер-а

оцр гИмагеРеадер

  • Ми ћемо бити у стању увоз ПДФ докумената и слика са диска, уређаја за скенирање, међуспремника и снимака екрана. гИмагеРеадер подржава многе типове датотека. Једноставно ћемо морати да увеземо наше датотеке у алатку и извуците текст једним кликом.
  • Ми ћемо имати могућност генеришите ПДФ документе из хОЦР докумената. гИмагеРеадер подржава три формата екстрахованог текста, обичан текст, ПДФ и хОЦР формат.
  • Алат ће нам дати могућност да дефинише област за ручно или аутоматско препознавање да бисте изабрали текст за издвајање.
  • Препознати текст се приказује директно поред слике. Као што можете видети на претходном снимку екрана.
  • Након издвајања у обичан текст, гИмагеРеадер врши радње накнадне обраде, као што је провера правописа. У зависности од језика који бирамо (подразумевано је Сви енглески), ће подвући речи које имају граматичке грешке. Поред тога, гИмагеРеадер вам омогућава да изаберете режим сегментације странице који желите да користите за екстраховани текст.
  • За разлику од других ОЦР алата где можемо да радимо са једном по једном датотеком, гИмагеРеадер подржава Увоз бројних датотека и њихова групна обрадаs.

О овом програму можемо Добијте више информација или било која нова ажурирања на њиховој званичној веб страници. ГитХуб.

Инсталација на Убунту

апликација која ради са пдф-ом

Ово је примена на више платформи и ради и на Гну/Линук-у и на Виндовс-у. У следећим редовима видећемо процес инсталације гИмагеРеадер-а у Убунту 18.04 као што је наведено у ГитХуб страница пројекта.

Додајте ППА

Да бисмо имали овај софтвер, биће нам потребно додајте ППА спремиште у наш систем. То ћемо урадити отварањем терминала (Цтрл+Алт+Т) и писањем следеће команде:

додајте репо гИмагеРеадер

sudo add-apt-repository ppa:sandromani/gimagereader

Инсталирајте гИмагеРеадер

Када се заврши доступно ажурирање софтвера, сада можемо наставите са инсталирањем апликације куцање на истом терминалу:

Инсталација гИмагеРеадер-а

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Уз све горе наведено, гИмагеРеадер би требало да буде инсталиран на вашем Убунту-у. Сада би требало да можемо да покренемо програм на нашем рачунару.

покретач апликација

Деинсталирај

У случају да желимо деинсталирајте гИмагеРеадер, у терминалу (Цтрл+Алт+Т) мораћемо само да користимо следећу команду:

уклоните гИмагеРеадер

sudo apt-get remove gimagereader -y

Да бисмо завршили са елиминацијом програма, такође морамо да извршимо:

sudo apt-get autoremove

Можемо уклонити ППА који смо користили за инсталацију из нашег система тако што ћемо написати у истом терминалу:

деинсталирајте гимагерреадер ППА

sudo add-apt-repository -r ppa:sandromani/gimagereader

гИмагеРеадер је једноставан Гтк/Кт фронт-енд за тессерацт-оцр Оно што следи је поједностављивање целог процеса издвајања штампаног текста из слика. То ће нам омогућити да радимо са датотекама, скенираним сликама, ПДФ-овима, залепљеним елементима међуспремника итд. Ово га чини добром опцијом за лако и брзо уклањање текста са наших слика.


Будите први који ће коментарисати

Оставите свој коментар

Ваша емаил адреса неће бити објављена. Обавезна поља су означена са *

*

*

  1. За податке одговоран: Мигуел Ангел Гатон
  2. Сврха података: Контрола нежељене поште, управљање коментарима.
  3. Легитимација: Ваш пристанак
  4. Комуникација података: Подаци се неће преносити трећим лицима, осим по законској обавези.
  5. Похрана података: База података коју хостује Оццентус Нетворкс (ЕУ)
  6. Права: У било ком тренутку можете ограничити, опоравити и избрисати своје податке.