Im nächsten Artikel werden wir uns pdftotext ansehen. Dies ist ein Open Source-Befehlszeilenprogramm, mit dem wir dies tun können Konvertieren Sie PDF-Dateien in Nur-Text-Dateien. Grundsätzlich werden die Textdaten aus den PDF-Dateien extrahiert. Diese Software ist kostenlos und standardmäßig in vielen Gnu / Linux-Distributionen enthalten.
In den folgenden Zeilen sehen wir ein Tool für das Terminal, jedoch zum gleichen Zweck, um Text aus PDF-Dateien zu extrahieren Sie können auch ein grafisches Werkzeug wie verwenden Kaliber. Es ist erwähnenswert, dass sowohl das grafische Werkzeug als auch das, das wir im Terminal verwenden können, Sie können den Text nicht extrahieren, wenn das PDF aus Bildern besteht (Fotos, gescannte Buchbilder usw.).
Bei den meisten Gnu / Linux-Distributionen pdftotext ist im poppler-utils-Paket enthalten. Dieses Tool ist ein Befehlszeilenprogramm, das Konvertieren Sie PDF-Dateien in einfachen Text. Darin finden Sie viele verfügbare Optionen, einschließlich der Möglichkeit, den Bereich der zu konvertierenden Seiten anzugeben, das ursprüngliche physische Layout des Textes so gut wie möglich beizubehalten, Zeilenenden festzulegen und sogar mit kennwortgeschützten PDF-Dateien zu arbeiten .
Installieren Sie pdftotext unter Ubuntu
Um dieses Tool auf unserem Ubuntu-System zu installieren, müssen Sie nur ein Terminal (Strg + Alt + T) öffnen und den folgenden Befehl in das Terminal schreiben, falls Sie es noch nicht installiert haben installiere poppler-utils:
sudo apt install poppler-utils
Verwendung von pdftotext
Konvertieren Sie eine PDF-Datei in Text
Sobald wir das Paket auf unserem Betriebssystem installiert haben, können wir eine PDF-Datei in einfachen Text konvertieren. Kann Versuchen Sie, das ursprüngliche Design mit der Option beizubehalten -Layout mit dem Befehl, aber wir können es auch ohne versuchen. In einem Terminal (Strg + Alt + T) lautet der zu verwendende Befehl wie folgt:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Im vorherigen Befehl müssten wir ersetzen pdf-input.pdf mit dem Namen der PDF-Datei, die wir konvertieren möchten, und pdf-output.txt durch den Namen der TXT-Datei, in der der Text der eingegebenen PDF-Datei gespeichert werden soll. Wenn wir keine Ausgabetextdatei angeben, benennt pdftotext die Datei automatisch mit demselben Namen wie die ursprüngliche PDF-Datei, jedoch mit einer txt-Erweiterung. Eine andere Sache, die interessant sein kann, um den Befehl hinzuzufügen, sind die Pfade vor den Dateinamen, falls erforderlich (~ / Documents / pdf-input.pdf).
Konvertieren Sie nur eine Reihe von PDF-Seiten in Text
Wenn wir nicht daran interessiert sind, die gesamte PDF-Datei zu konvertieren, und wir wollen Grenzen Sie eine Reihe von PDF-Seiten ein, die in Text konvertiert werden sollen es wird____geben Verwenden Sie die Option -f (erste zu konvertierende Seite) Und -l (letzte zu konvertierende Seite) gefolgt von jeder Option mit der Seitenzahl. Der zu verwendende Befehl wäre ungefähr so:
pdftotext -layout -f P -l U pdf-entrada.pdf
Im vorherigen Befehl müssen Sie Ersetzen Sie die Buchstaben P und U durch die ersten und letzten Seitenzahlen extrahieren. Der Name von pdf-input.pdf Wir müssen es auch ändern und ihm den Namen der PDF-Datei geben, mit der wir arbeiten möchten.
Verwenden Sie Zeilenendezeichen
Dies können wir spezifizieren mit -eol gefolgt von mac, dos oder unix. Der folgende Befehl fügt Unix-Zeilenabschlüsse hinzu:
pdftotext -layout -eol unix pdf-entrada.pdf
Hilfe
zu Überprüfen Sie die verfügbaren OptionenFühren Sie die Manpage aus:
man pdftotext
Es kann auch sein, Konsultieren Sie die Hilfeoption mit dem Befehl:
pdftotext --help
Konvertieren Sie PDF-Dateien aus einem Ordner mithilfe einer Bash FOR-Schleife
Falls wir alle PDF-Dateien in einem Ordner in Textdateien konvertieren möchten, pdftotext unterstützt keine Stapelkonvertierung von PDF in Text. Dies Wir werden es mit einer Bash FOR-Schleife tun können im Terminal (Strg + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
zu Weitere Informationen zu pdftotextkönnen Sie die konsultieren Projektwebsite. Falls Sie keine Befehle in das Terminal eingeben möchten, können Sie dies auch tun benutze a Online-Dienst um das gleiche Ergebnis zu erhalten.
Ja, es funktioniert, aber manchmal muss ich OCR machen oder Libre Office Draw verwenden.
Darüber hinaus gibt es viele PDF-Editoren. und anscheinend passiert dies nicht, um die Bilder zu textieren, so dass ich es nicht praktisch sehe.
Und Libre Office Draw ist intuitiv und praktisch.