W następnym artykule przyjrzymy się gImageReader. To jest aplikacja przedni koniec silnika Tesseract OCR. Dla tych, którzy nie znają Tesseract, powiedz, że jest to mechanizm optycznego rozpoznawania znaków (OCR), który wykorzystuje sztuczną inteligencję do wyszukiwania i rozpoznawania tekstu wydrukowanego na obrazach. Jest to biblioteka open source i jeden z najpopularniejszych silników OCR na rynku. Uprość cały proces wyodrębniania drukowanego tekstu z obrazów umożliwienie użytkownikom pracy z plikami, zeskanowanymi obrazami, plikami PDF, wklejonymi elementami schowka itp.
Dziś wszyscy użytkownicy, czy to w biurach, domach itp., Możemy znaleźć się w sytuacji, w której musimy wydobyć tekst z obrazu. Może to być zeskanowany dokument w formacie obrazu, kartka papieru lub stara praca naukowa. Wielu użytkowników wybrałoby możliwość wpisania całego tekstu za pomocą edytora, ale ten proces może być czasochłonny. Aby uniknąć tej pracy, możemy również zdecydować się na opcję użyj OCR, aby automatycznie wyodrębnić tekst.
gImageReader zaoferuje nam wiele funkcji i narzędzi. Ta aplikacja jest dobrym narzędziem do użycia po zaimportowaniu pliku PDF lub zeskanowany dokument i jego dalsze przetwarzanie.
Ogólne funkcje GImageReader
- Będziemy mogli importuj dokumenty PDF i obrazy z dysku, urządzeń skanujących, schowka i zrzutów ekranu. gImageReader obsługuje wiele typów plików. Będziemy musieli po prostu zaimportować nasze pliki do narzędzia i wyodrębnij tekst jednym kliknięciem.
- Będziemy mieli taką możliwość generować dokumenty PDF z dokumentów hOCR. gImageReader obsługuje trzy formaty wyodrębnionego tekstu, zwykły tekst, PDF i format hOCR.
- Narzędzie da nam możliwość zdefiniować obszar rozpoznawania ręcznego lub automatycznego aby zaznaczyć tekst do wyodrębnienia.
- Rozpoznany tekst jest wyświetlany bezpośrednio obok obrazu. Jak widać na powyższym zrzucie ekranu.
- Po wyodrębnieniu do zwykłego tekstu gImageReader wykonuje czynności przetwarzania końcowego, takie jak sprawdzanie pisowni. W zależności od wybranego przez nas języka (wartość domyślna to All English) podkreśli słowa z błędami gramatycznymi. Ponadto gImageReader pozwala nam wybrać tryb segmentacji strony, którego chcemy użyć dla wyodrębnionego tekstu.
- W przeciwieństwie do innych narzędzi OCR, w których możemy pracować z jednym plikiem na raz, gImageReader obsługuje rozszerzenie import wielu plików i ich przetwarzanie wsadowes.
O tym programie możemy uzyskać więcej informacji lub jakąkolwiek nową aktualizację na ich oficjalnej stronie GitHub.
Instalacja na Ubuntu
To aplikacja wieloplatformowa i działa zarówno na Gnu / Linux, jak i Windows. W kolejnych wierszach zobaczymy proces instalacji gImageReader w Ubuntu 18.04, jak wskazano w strona projektu w serwisie GitHub.
Dodaj PPA
Aby mieć to oprogramowanie, będziemy potrzebować dodaj repozytorium PPA do naszego systemu. Zrobimy to, otwierając terminal (Ctrl + Alt + T) i wpisując następujące polecenie:
sudo add-apt-repository ppa:sandromani/gimagereader
Zainstaluj gImageReader
Po dostępnej aktualizacji oprogramowania możemy teraz przystąpić do instalacji aplikacji wpisując w tym samym terminalu:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Biorąc pod uwagę wszystkie powyższe, gImageReader powinien zainstalować się na Twoim Ubuntu. Teraz powinniśmy móc uruchomić program na naszym komputerze.
Odinstaluj
Na wypadek, gdybyśmy chcieli odinstaluj gImageReader, w terminalu (Ctrl + Alt + T) będziemy musieli użyć tylko następującego polecenia:
sudo apt-get remove gimagereader -y
Aby zakończyć eliminację programu, możemy również wykonać:
sudo apt-get autoremove
PPA, którego używamy do instalacji, można usunąć z naszego systemu, wpisując w tym samym terminalu:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader to prosty plik front-end Gtk / Qt dla tesserakt-ocr to upraszcza cały proces wyodrębniania drukowanego tekstu z obrazów. Pozwoli nam to pracować z plikami, zeskanowanymi obrazami, plikami PDF, wklejonymi elementami schowka itp. To sprawia, że jest to dobra opcja, aby łatwo i szybko usunąć tekst z naszych obrazów.