Pdftotext, konvertieren Sie ein PDF vom Terminal in Text

über pdftotext

Im nächsten Artikel werden wir uns pdftotext ansehen. Dies ist ein Open Source-Befehlszeilenprogramm, mit dem wir dies tun können Konvertieren Sie PDF-Dateien in Nur-Text-Dateien. Grundsätzlich werden die Textdaten aus den PDF-Dateien extrahiert. Diese Software ist kostenlos und standardmäßig in vielen Gnu / Linux-Distributionen enthalten.

In den folgenden Zeilen sehen wir ein Tool für das Terminal, jedoch zum gleichen Zweck, um Text aus PDF-Dateien zu extrahieren Sie können auch ein grafisches Werkzeug wie verwenden Kaliber. Es ist erwähnenswert, dass sowohl das grafische Werkzeug als auch das, das wir im Terminal verwenden können, Sie können den Text nicht extrahieren, wenn das PDF aus Bildern besteht (Fotos, gescannte Buchbilder usw.).

Bei den meisten Gnu / Linux-Distributionen pdftotext ist im poppler-utils-Paket enthalten. Dieses Tool ist ein Befehlszeilenprogramm, das Konvertieren Sie PDF-Dateien in einfachen Text. Darin finden Sie viele verfügbare Optionen, einschließlich der Möglichkeit, den Bereich der zu konvertierenden Seiten anzugeben, das ursprüngliche physische Layout des Textes so gut wie möglich beizubehalten, Zeilenenden festzulegen und sogar mit kennwortgeschützten PDF-Dateien zu arbeiten .

über das Entfernen eines bekannten Passworts aus einem PDF
Verwandte Artikel:
Entfernen Sie ein bekanntes Passwort aus einer PDF-Datei in Ubutu

Installieren Sie pdftotext unter Ubuntu

Um dieses Tool auf unserem Ubuntu-System zu installieren, müssen Sie nur ein Terminal (Strg + Alt + T) öffnen und den folgenden Befehl in das Terminal schreiben, falls Sie es noch nicht installiert haben installiere poppler-utils:

Installieren Sie die Poppler-Utils

sudo apt install poppler-utils

Verwendung von pdftotext

Konvertieren Sie eine PDF-Datei in Text

Sobald wir das Paket auf unserem Betriebssystem installiert haben, können wir eine PDF-Datei in einfachen Text konvertieren. Kann Versuchen Sie, das ursprüngliche Design mit der Option beizubehalten -Layout mit dem Befehl, aber wir können es auch ohne versuchen. In einem Terminal (Strg + Alt + T) lautet der zu verwendende Befehl wie folgt:

pdftotext konvertiert pdf in Klartext

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Im vorherigen Befehl müssten wir ersetzen pdf-input.pdf mit dem Namen der PDF-Datei, die wir konvertieren möchten, und pdf-output.txt durch den Namen der TXT-Datei, in der der Text der eingegebenen PDF-Datei gespeichert werden soll. Wenn wir keine Ausgabetextdatei angeben, benennt pdftotext die Datei automatisch mit demselben Namen wie die ursprüngliche PDF-Datei, jedoch mit einer txt-Erweiterung. Eine andere Sache, die interessant sein kann, um den Befehl hinzuzufügen, sind die Pfade vor den Dateinamen, falls erforderlich (~ / Documents / pdf-input.pdf).

Konvertieren Sie nur eine Reihe von PDF-Seiten in Text

Wenn wir nicht daran interessiert sind, die gesamte PDF-Datei zu konvertieren, und wir wollen Grenzen Sie eine Reihe von PDF-Seiten ein, die in Text konvertiert werden sollen es wird____geben Verwenden Sie die Option -f (erste zu konvertierende Seite) Und -l (letzte zu konvertierende Seite) gefolgt von jeder Option mit der Seitenzahl. Der zu verwendende Befehl wäre ungefähr so:

pdftotext -layout -f P -l U pdf-entrada.pdf

Speichern Sie im Textformat eine bestimmte Anzahl von Seiten eines PDFs

Im vorherigen Befehl müssen Sie Ersetzen Sie die Buchstaben P und U durch die ersten und letzten Seitenzahlen extrahieren. Der Name von pdf-input.pdf Wir müssen es auch ändern und ihm den Namen der PDF-Datei geben, mit der wir arbeiten möchten.

Verwenden Sie Zeilenendezeichen

Dies können wir spezifizieren mit -eol gefolgt von mac, dos oder unix. Der folgende Befehl fügt Unix-Zeilenabschlüsse hinzu:

pdftotext -layout -eol unix pdf-entrada.pdf

Hilfe

zu Überprüfen Sie die verfügbaren OptionenFühren Sie die Manpage aus:

Mann pdftotext

man pdftotext

Es kann auch sein, Konsultieren Sie die Hilfeoption mit dem Befehl:

Hilfebefehl pdftotext

pdftotext --help

Konvertieren Sie PDF-Dateien aus einem Ordner mithilfe einer Bash FOR-Schleife

Falls wir alle PDF-Dateien in einem Ordner in Textdateien konvertieren möchten, pdftotext unterstützt keine Stapelkonvertierung von PDF in Text. Dies Wir werden es mit einer Bash FOR-Schleife tun können im Terminal (Strg + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

zu Weitere Informationen zu pdftotextkönnen Sie die konsultieren Projektwebsite. Falls Sie keine Befehle in das Terminal eingeben möchten, können Sie dies auch tun benutze a Online-Dienst um das gleiche Ergebnis zu erhalten.


Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert mit *

*

*

  1. Verantwortlich für die Daten: Miguel Ángel Gatón
  2. Zweck der Daten: Kontrolle von SPAM, Kommentarverwaltung.
  3. Legitimation: Ihre Zustimmung
  4. Übermittlung der Daten: Die Daten werden nur durch gesetzliche Verpflichtung an Dritte weitergegeben.
  5. Datenspeicherung: Von Occentus Networks (EU) gehostete Datenbank
  6. Rechte: Sie können Ihre Informationen jederzeit einschränken, wiederherstellen und löschen.

  1.   Moypher Nachtkrelin sagte

    Ja, es funktioniert, aber manchmal muss ich OCR machen oder Libre Office Draw verwenden.

    Darüber hinaus gibt es viele PDF-Editoren. und anscheinend passiert dies nicht, um die Bilder zu textieren, so dass ich es nicht praktisch sehe.

    Und Libre Office Draw ist intuitiv und praktisch.