gImageReader, PDF приложение с възможности за OCR

В следващата статия ще разгледаме gImageReader. Това е приложение преден край за двигател Tesseract OCR. За тези, които не познават Tesseract, кажете, че това е двигател за оптично разпознаване на символи (OCR), който използва изкуствен интелект за търсене и разпознаване на текст, отпечатан върху изображения. Това е библиотека с отворен код и един от най-популярните OCR двигатели на пазара. Опростете целия процес на извличане на отпечатан текст от изображения позволявайки на потребителите да работят с файлове, сканирани изображения, PDF файлове, поставени елементи от клипборда и др.

Днес всички потребители, независимо дали са в офиси, домове и т.н., можем да изпаднем в ситуация, в която трябва да извлечем текст от изображение. Това може да бъде сканиран документ във формат на изображение, лист хартия или стара изследователска хартия. Опцията, която много потребители биха взели, е да напишат целия текст с помощта на редактор, но този процес може да отнеме много време. За да избегнем тази работа, можем да изберем и опцията за използвайте OCR за автоматично извличане на текста.

gImageReader ще ни предложи много функции и инструменти. Това приложение е добър инструмент за използване след импортиране на PDF или сканираният документ и по-нататъшната му обработка.

Общи характеристики на GImageReader

Ще имаме възможност импортирайте PDF документи и изображения от диск, сканиращи устройства, клипборд и екранни снимки. gImageReader поддържа много видове файлове. Просто ще трябва да импортираме нашите файлове в инструмента и извлечете текст с едно щракване.
Ще имаме възможност за генерирайте PDF документи от hOCR документи. gImageReader поддържа три формата на извлечен текст, обикновен текст, PDF и hOCR формат.
Инструментът ще ни даде възможност за дефинирайте зона за ръчно или автоматично разпознаване за да изберете текста за извличане.
Разпознатият текст се показва директно до изображението. Както можете да видите на горната екранна снимка.
След извличане в обикновен текст, gImageReader извършва действия за последваща обработка, като например проверка на правописа. В зависимост от избрания от нас език (по подразбиране е All English), ще подчертае думи, които имат граматически грешки. В допълнение, gImageReader ни позволява да изберем режима на сегментиране на страницата, който искаме да използваме за извлечения текст.
За разлика от другите OCR инструменти, където можем да работим с един файл наведнъж, gImageReader поддържа импортиране на множество файлове и тяхната групова обработкаs.

За тази програма можем получите повече информация или всяка нова актуализация на официалната им страница GitHub.

Инсталиране на Ubuntu

Това е кросплатформено приложение и работи както на Gnu / Linux, така и на Windows. В следващите редове ще видим процеса на инсталиране на gImageReader в Ubuntu 18.04, както е посочено в страницата на проекта за GitHub.

Добавете PPA

За да разполагаме с този софтуер, ще ни е необходим добавете PPA хранилището към нашата система. Ще направим това, като отворим терминал (Ctrl + Alt + T) и напишем следната команда:

sudo add-apt-repository ppa:sandromani/gimagereader

Инсталирайте gImageReader

След наличната актуализация на софтуера вече можем продължете да инсталирате приложението пишете в същия терминал:

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

С всичко по-горе, gImageReader трябва да се инсталира на вашия Ubuntu. Сега трябва да можем да стартираме програмата на нашия компютър.

деинсталиране

В случай, че искаме деинсталирайте gImageReader, в терминал (Ctrl + Alt + T) ще трябва да използваме само следната команда:

sudo apt-get remove gimagereader -y

За да завършим елиминирането на програмата, можем също да изпълним:

sudo apt-get autoremove

PPA, който използваме за инсталацията, може да бъде премахнат от нашата система, като напишете в същия терминал:

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader е прост преден край Gtk / Qt за тесеракт-окр което идва да опрости целия процес на извличане на отпечатан текст от изображения. Това ще ни позволи да работим с файлове, сканирани изображения, PDF, поставени елементи от клипборда и т.н. Това го прави добра опция за лесно и бързо извличане на текста от нашите изображения.

Оставете вашия коментар Отказ на отговора

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

коментар *

име*

Електронната поща*

Приемам условия за поверителност*

Отговорен за данните: Мигел Анхел Гатон
Предназначение на данните: Контрол на СПАМ, управление на коментари.
Легитимация: Вашето съгласие
Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

Искам да получа бюлетина

Ubunlog

gImageReader, PDF приложение с възможност за OCR