gImageReader, eine PDF-Anwendung mit OCR-Funktionen

Im nächsten Artikel werfen wir einen Blick auf gImageReader. Dies ist eine App Frontend für Motor Tesserakt OCR. Für diejenigen, die Tesseract nicht kennen, ist es eine OCR-Engine (Optical Character Recognition), die künstliche Intelligenz verwendet, um auf Bildern gedruckten Text zu suchen und zu erkennen. Es ist eine Open-Source-Bibliothek und eine der beliebtesten OCR-Engines auf dem Markt. Vereinfachen Sie den gesamten Vorgang des Extrahierens von gedrucktem Text aus Bildern Benutzer können mit Dateien, gescannten Bildern, PDFs, eingefügten Elementen der Zwischenablage usw. arbeiten.

Heute befinden sich alle Benutzer, ob in Büros, zu Hause usw., in einer Situation, in der wir Text aus einem Bild extrahieren müssen. Es kann sich um ein gescanntes Dokument im Bildformat, ein Stück Papier oder ein altes Forschungspapier handeln. Viele Benutzer würden die Option wählen, den gesamten Text mit einem Editor einzugeben. Dieser Vorgang kann jedoch zeitaufwändig sein. Um diese Arbeit zu vermeiden, können wir uns auch für die Option entscheiden Verwenden Sie eine OCR, um den Text automatisch zu extrahieren.

gImageReader bietet uns viele Funktionen und Tools. Diese Anwendung ist ein gutes Werkzeug nach dem Importieren von a PDF oder das gescannte Dokument und seine weitere Verarbeitung.

Allgemeine Funktionen von GImageReader

Wir werden fähig sein Importieren Sie PDF-Dokumente und Bilder von Datenträgern, Scangeräten, Zwischenablagen und Screenshots. gImageReader unterstützt viele Dateitypen. Wir müssen einfach unsere Dateien in das Tool importieren und Text mit einem Klick extrahieren.
Wir werden die Möglichkeit haben Generieren Sie PDF-Dokumente aus hOCR-Dokumenten. gImageReader unterstützt drei Formate für extrahierten Text, Klartext, PDF und hOCR.
Das Tool gibt uns die Möglichkeit von Definieren Sie einen manuellen oder automatischen Erkennungsbereich um den zu extrahierenden Text auszuwählen.
Der erkannte Text wird direkt neben dem Bild angezeigt. Wie Sie im obigen Screenshot sehen können.
Nach dem Extrahieren in einfachen Text führt gImageReader Nachbearbeitungsaktionen aus, z Rechtschreibprüfung. Abhängig von der Sprache, die wir wählen (Die Standardeinstellung ist Alle Englisch) unterstreicht Wörter mit Grammatikfehlern. Darüber hinaus können wir mit gImageReader den Seitensegmentierungsmodus auswählen, den wir für den extrahierten Text verwenden möchten.
Im Gegensatz zu anderen OCR-Tools, bei denen wir jeweils mit einer Datei arbeiten können, unterstützt gImageReader das Import zahlreicher Dateien und deren Stapelverarbeitungs.

Über dieses Programm können wir Weitere Informationen oder neue Updates finden Sie auf der offiziellen Seite GitHub.

Installation unter Ubuntu

Dies ist ein Multiplattform-Anwendung und es funktioniert sowohl unter Gnu / Linux als auch unter Windows. In den folgenden Zeilen sehen wir den Installationsprozess von gImageReader in Ubuntu 18.04, wie in angegeben die GitHub-Seite des Projekts.

Fügen Sie die PPA hinzu

Um diese Software zu haben, benötigen wir Fügen Sie das PPA-Repository zu unserem System hinzu. Dazu öffnen wir ein Terminal (Strg + Alt + T) und geben den folgenden Befehl ein:

sudo add-apt-repository ppa:sandromani/gimagereader

Installieren Sie gImageReader

Nach dem verfügbaren Software-Update können wir jetzt Fahren Sie mit der Installation der Anwendung fort Eingabe im selben Terminal:

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Mit all dem sollte gImageReader auf Ihrem Ubuntu installiert werden. Jetzt sollten wir das Programm auf unserem Computer starten können.

Deinstallieren

Falls wir wollen deinstallieren Sie gImageReaderIn einem Terminal (Strg + Alt + T) müssen wir nur den folgenden Befehl verwenden:

sudo apt-get remove gimagereader -y

Um das Programm zu beenden, können wir auch Folgendes ausführen:

sudo apt-get autoremove

Die PPA, die wir für die Installation verwenden, kann aus unserem System entfernt werden, indem Sie dasselbe Terminal eingeben:

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader ist ein einfacher Frontend Gtk / Qt für tesserakt-ocr Dies vereinfacht den gesamten Prozess des Extrahierens von gedrucktem Text aus Bildern. Es ermöglicht uns, mit Dateien, gescannten Bildern, PDFs, eingefügten Elementen aus der Zwischenablage usw. zu arbeiten. Dies macht es zu einer guten Option, den Text einfach und schnell aus unseren Bildern zu entfernen.

Ubunlog

gImageReader, eine OCR-fähige PDF-Anwendung

Allgemeine Funktionen von GImageReader

Installation unter Ubuntu

Fügen Sie die PPA hinzu

Installieren Sie gImageReader

Deinstallieren

Hinterlasse einen Kommentar Antwort abbrechen