gImageReader, een OCR-compatibele PDF-toepassing

over gimagereader

In het volgende artikel gaan we kijken naar gImageReader. Dit is een app voorkant voor motor Tesseract OCR​ Voor degenen die Tesseract niet kennen, zeggen dat het een optische tekenherkenning (OCR) -engine is die kunstmatige intelligentie gebruikt om tekst op afbeeldingen te zoeken en te herkennen. Het is een open source-bibliotheek en een van de meest populaire OCR-engines op de markt. Vereenvoudig het hele proces van het extraheren van afgedrukte tekst uit afbeeldingen waardoor gebruikers kunnen werken met bestanden, gescande afbeeldingen, pdf's, geplakte klemborditems, enz.

Tegenwoordig kunnen alle gebruikers, of ze nu in kantoren, huizen, enz. Zijn, ons in een situatie bevinden waarin we tekst uit een afbeelding moeten halen. Het kan een gescand document in beeldformaat zijn, een stuk papier of een oud onderzoeksdocument. De optie die veel gebruikers zouden kiezen, is om alle tekst in een editor te typen, maar dit proces kan tijdrovend zijn. Om dit werk te vermijden, kunnen we ook kiezen voor de optie van gebruik een OCR om de tekst automatisch te extraheren.

gImageReader biedt ons veel functies en tools. Deze applicatie is een goed hulpmiddel om te gebruiken na het importeren van een PDF of het gescande document en de verdere verwerking ervan.

GImageReader Algemene kenmerken

ocr gImageReader

  • We zullen in staat zijn tot importeer PDF-documenten en afbeeldingen van schijf, scanapparaten, klembord en screenshots​ gImageReader ondersteunt vele soorten bestanden. We zullen gewoon onze bestanden moeten importeren in de tool en extraheer tekst met één klik.
  • We zullen de mogelijkheid hebben PDF-documenten genereren van hOCR-documenten​ gImageReader ondersteunt drie formaten geëxtraheerde tekst: platte tekst, pdf en hOCR-indeling.
  • De tool geeft ons de mogelijkheid van een handmatig of automatisch herkenningsgebied definiëren om de tekst te selecteren die u wilt extraheren.
  • De herkende tekst wordt direct naast de afbeelding weergegeven​ Zoals je kunt zien in de bovenstaande schermafbeelding.
  • Na het extraheren naar platte tekst, voert gImageReader nabewerkingsacties uit, zoals spellingscontrole​ Afhankelijk van de taal die we kiezen (de standaardinstelling is All English), onderstreept woorden met grammaticale fouten. Bovendien stelt gImageReader ons in staat om de paginasegmentatiemodus te selecteren die we willen gebruiken voor de geëxtraheerde tekst.
  • In tegenstelling tot andere OCR-tools waarbij we met één bestand tegelijk kunnen werken, ondersteunt gImageReader de import van talrijke bestanden en hun batchverwerkings.

Over dit programma kunnen we krijg meer informatie of een nieuwe update op hun officiële pagina GitHub.

Installatie op Ubuntu

applicatie draait met een pdf

Dit is een multiplatform-applicatie en het werkt op zowel Gnu / Linux als Windows. In de volgende regels zullen we het installatieproces van gImageReader in Ubuntu 18.04 zien zoals aangegeven in de GitHub-pagina van het project.

Voeg de PPA toe

Om deze software te hebben hebben we nodig voeg de PPA-repository toe aan ons systeem​ We zullen dit doen door een terminal te openen (Ctrl + Alt + T) en de volgende opdracht te typen:

voeg repo gImageReader toe

sudo add-apt-repository ppa:sandromani/gimagereader

Installeer gImageReader

Nadat de software-update beschikbaar is, kunnen we nu ga verder met het installeren van de applicatie typen in dezelfde terminal:

gImageReader installatie

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Met al het bovenstaande zou gImageReader op uw Ubuntu moeten worden geïnstalleerd. Nu zouden we het programma op onze computer moeten kunnen starten.

app-opstartprogramma

uninstall

Voor het geval we willen verwijder gImageReader, in een terminal (Ctrl + Alt + T) hoeven we alleen het volgende commando te gebruiken:

verwijder gImageReader

sudo apt-get remove gimagereader -y

Om het programma te elimineren, kunnen we ook het volgende uitvoeren:

sudo apt-get autoremove

De PPA die we gebruiken voor de installatie kan uit ons systeem worden verwijderd door dezelfde terminal in te typen:

verwijder gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader is een eenvoudig front-end Gtk / Qt voor tesseract-ocr dat vereenvoudigt het hele proces van het extraheren van gedrukte tekst uit afbeeldingen. Hiermee kunnen we werken met bestanden, gescande afbeeldingen, pdf, geplakte klemborditems, enz. Dit maakt het een goede optie om de tekst gemakkelijk en snel uit onze afbeeldingen te halen.


Laat je reactie achter

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

*

  1. Verantwoordelijk voor de gegevens: Miguel Ángel Gatón
  2. Doel van de gegevens: Controle SPAM, commentaarbeheer.
  3. Legitimatie: uw toestemming
  4. Mededeling van de gegevens: De gegevens worden niet aan derden meegedeeld, behalve op grond van wettelijke verplichting.
  5. Gegevensopslag: database gehost door Occentus Networks (EU)
  6. Rechten: u kunt uw gegevens op elk moment beperken, herstellen en verwijderen.