gImageReader, eine OCR-fähige PDF-Anwendung

über Gimagereader

Im nächsten Artikel werfen wir einen Blick auf gImageReader. Dies ist eine App Frontend für Motor Tesserakt OCR. Für diejenigen, die Tesseract nicht kennen, ist es eine OCR-Engine (Optical Character Recognition), die künstliche Intelligenz verwendet, um auf Bildern gedruckten Text zu suchen und zu erkennen. Es ist eine Open-Source-Bibliothek und eine der beliebtesten OCR-Engines auf dem Markt. Vereinfachen Sie den gesamten Vorgang des Extrahierens von gedrucktem Text aus Bildern Benutzer können mit Dateien, gescannten Bildern, PDFs, eingefügten Elementen der Zwischenablage usw. arbeiten.

Heute befinden sich alle Benutzer, ob in Büros, zu Hause usw., in einer Situation, in der wir Text aus einem Bild extrahieren müssen. Es kann sich um ein gescanntes Dokument im Bildformat, ein Stück Papier oder ein altes Forschungspapier handeln. Viele Benutzer würden die Option wählen, den gesamten Text mit einem Editor einzugeben. Dieser Vorgang kann jedoch zeitaufwändig sein. Um diese Arbeit zu vermeiden, können wir uns auch für die Option entscheiden Verwenden Sie eine OCR, um den Text automatisch zu extrahieren.

gImageReader bietet uns viele Funktionen und Tools. Diese Anwendung ist ein gutes Werkzeug nach dem Importieren von a PDF oder das gescannte Dokument und seine weitere Verarbeitung.

Allgemeine Funktionen von GImageReader

ocr gImageReader

  • Wir werden fähig sein Importieren Sie PDF-Dokumente und Bilder von Datenträgern, Scangeräten, Zwischenablagen und Screenshots. gImageReader unterstützt viele Dateitypen. Wir müssen einfach unsere Dateien in das Tool importieren und Text mit einem Klick extrahieren.
  • Wir werden die Möglichkeit haben Generieren Sie PDF-Dokumente aus hOCR-Dokumenten. gImageReader unterstützt drei Formate für extrahierten Text, Klartext, PDF und hOCR.
  • Das Tool gibt uns die Möglichkeit von Definieren Sie einen manuellen oder automatischen Erkennungsbereich um den zu extrahierenden Text auszuwählen.
  • Der erkannte Text wird direkt neben dem Bild angezeigt. Wie Sie im obigen Screenshot sehen können.
  • Nach dem Extrahieren in einfachen Text führt gImageReader Nachbearbeitungsaktionen aus, z Rechtschreibprüfung. Abhängig von der Sprache, die wir wählen (Die Standardeinstellung ist Alle Englisch) unterstreicht Wörter mit Grammatikfehlern. Darüber hinaus können wir mit gImageReader den Seitensegmentierungsmodus auswählen, den wir für den extrahierten Text verwenden möchten.
  • Im Gegensatz zu anderen OCR-Tools, bei denen wir jeweils mit einer Datei arbeiten können, unterstützt gImageReader das Import zahlreicher Dateien und deren Stapelverarbeitungs.

Über dieses Programm können wir Weitere Informationen oder neue Updates finden Sie auf der offiziellen Seite GitHub.

Installation unter Ubuntu

Anwendung läuft mit einem PDF

Dies ist ein Multiplattform-Anwendung und es funktioniert sowohl unter Gnu / Linux als auch unter Windows. In den folgenden Zeilen sehen wir den Installationsprozess von gImageReader in Ubuntu 18.04, wie in angegeben die GitHub-Seite des Projekts.

Fügen Sie die PPA hinzu

Um diese Software zu haben, benötigen wir Fügen Sie das PPA-Repository zu unserem System hinzu. Dazu öffnen wir ein Terminal (Strg + Alt + T) und geben den folgenden Befehl ein:

füge repo gImageReader hinzu

sudo add-apt-repository ppa:sandromani/gimagereader

Installieren Sie gImageReader

Nach dem verfügbaren Software-Update können wir jetzt Fahren Sie mit der Installation der Anwendung fort Eingabe im selben Terminal:

gImageReader-Installation

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Mit all dem sollte gImageReader auf Ihrem Ubuntu installiert werden. Jetzt sollten wir das Programm auf unserem Computer starten können.

App Launcher

Deinstallieren

Falls wir wollen deinstallieren Sie gImageReaderIn einem Terminal (Strg + Alt + T) müssen wir nur den folgenden Befehl verwenden:

Entfernen Sie gImageReader

sudo apt-get remove gimagereader -y

Um das Programm zu beenden, können wir auch Folgendes ausführen:

sudo apt-get autoremove

Die PPA, die wir für die Installation verwenden, kann aus unserem System entfernt werden, indem Sie dasselbe Terminal eingeben:

Deinstallieren Sie Gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader ist ein einfacher Frontend Gtk / Qt für tesserakt-ocr Dies vereinfacht den gesamten Prozess des Extrahierens von gedrucktem Text aus Bildern. Es ermöglicht uns, mit Dateien, gescannten Bildern, PDFs, eingefügten Elementen aus der Zwischenablage usw. zu arbeiten. Dies macht es zu einer guten Option, den Text einfach und schnell aus unseren Bildern zu entfernen.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.