gImageReader, PDF приложение с възможност за OCR

за gimagereader

В следващата статия ще разгледаме gImageReader. Това е приложение преден край за двигател Tesseract OCR. За тези, които не познават Tesseract, кажете, че това е двигател за оптично разпознаване на символи (OCR), който използва изкуствен интелект за търсене и разпознаване на текст, отпечатан върху изображения. Това е библиотека с отворен код и един от най-популярните OCR двигатели на пазара. Опростете целия процес на извличане на отпечатан текст от изображения позволявайки на потребителите да работят с файлове, сканирани изображения, PDF файлове, поставени елементи от клипборда и др.

Днес всички потребители, независимо дали са в офиси, домове и т.н., можем да изпаднем в ситуация, в която трябва да извлечем текст от изображение. Това може да бъде сканиран документ във формат на изображение, лист хартия или стара изследователска хартия. Опцията, която много потребители биха взели, е да напишат целия текст с помощта на редактор, но този процес може да отнеме много време. За да избегнем тази работа, можем да изберем и опцията за използвайте OCR за автоматично извличане на текста.

gImageReader ще ни предложи много функции и инструменти. Това приложение е добър инструмент за използване след импортиране на PDF или сканираният документ и по-нататъшната му обработка.

Общи характеристики на GImageReader

ocr gImageReader

  • Ще имаме възможност импортирайте PDF документи и изображения от диск, сканиращи устройства, клипборд и екранни снимки. gImageReader поддържа много видове файлове. Просто ще трябва да импортираме нашите файлове в инструмента и извлечете текст с едно щракване.
  • Ще имаме възможност за генерирайте PDF документи от hOCR документи. gImageReader поддържа три формата на извлечен текст, обикновен текст, PDF и hOCR формат.
  • Инструментът ще ни даде възможност за дефинирайте зона за ръчно или автоматично разпознаване за да изберете текста за извличане.
  • Разпознатият текст се показва директно до изображението. Както можете да видите на горната екранна снимка.
  • След извличане в обикновен текст, gImageReader извършва действия за последваща обработка, като например проверка на правописа. В зависимост от избрания от нас език (по подразбиране е All English), ще подчертае думи, които имат граматически грешки. В допълнение, gImageReader ни позволява да изберем режима на сегментиране на страницата, който искаме да използваме за извлечения текст.
  • За разлика от другите OCR инструменти, където можем да работим с един файл наведнъж, gImageReader поддържа импортиране на множество файлове и тяхната групова обработкаs.

За тази програма можем получите повече информация или всяка нова актуализация на официалната им страница GitHub.

Инсталиране на Ubuntu

приложение, работещо с pdf

Това е кросплатформено приложение и работи както на Gnu / Linux, така и на Windows. В следващите редове ще видим процеса на инсталиране на gImageReader в Ubuntu 18.04, както е посочено в страницата на проекта за GitHub.

Добавете PPA

За да разполагаме с този софтуер, ще ни е необходим добавете PPA хранилището към нашата система. Ще направим това, като отворим терминал (Ctrl + Alt + T) и напишем следната команда:

добавете репо gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Инсталирайте gImageReader

След наличната актуализация на софтуера вече можем продължете да инсталирате приложението пишете в същия терминал:

Инсталиране на gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

С всичко по-горе, gImageReader трябва да се инсталира на вашия Ubuntu. Сега трябва да можем да стартираме програмата на нашия компютър.

стартер на приложения

деинсталиране

В случай, че искаме деинсталирайте gImageReader, в терминал (Ctrl + Alt + T) ще трябва да използваме само следната команда:

премахнете gImageReader

sudo apt-get remove gimagereader -y

За да завършим елиминирането на програмата, можем също да изпълним:

sudo apt-get autoremove

PPA, който използваме за инсталацията, може да бъде премахнат от нашата система, като напишете в същия терминал:

деинсталирайте gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader е прост преден край Gtk / Qt за тесеракт-окр което идва да опрости целия процес на извличане на отпечатан текст от изображения. Това ще ни позволи да работим с файлове, сканирани изображения, PDF, поставени елементи от клипборда и т.н. Това го прави добра опция за лесно и бързо извличане на текста от нашите изображения.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.