Pdftotext, μετατρέψτε ένα PDF σε κείμενο από το τερματικό

σχετικά με το pdftotext

Στο επόμενο άρθρο θα ρίξουμε μια ματιά στο pdftotext. Αυτό είναι ένα βοηθητικό πρόγραμμα γραμμής εντολών ανοιχτού κώδικα που θα μας επιτρέψει μετατροπή αρχείων PDF σε αρχεία απλού κειμένου. Βασικά αυτό που κάνει είναι να εξαγάγετε τα δεδομένα κειμένου από τα αρχεία PDF. Αυτό το λογισμικό είναι δωρεάν και περιλαμβάνεται από προεπιλογή σε πολλές διανομές Gnu / Linux.

Στις ακόλουθες γραμμές θα δούμε ένα εργαλείο για το τερματικό, αλλά για τον ίδιο σκοπό την εξαγωγή κειμένου από αρχεία PDF μπορείτε επίσης να χρησιμοποιήσετε ένα γραφικό εργαλείο όπως διαμέτρημα. Αξίζει να σημειωθεί ότι τόσο το γραφικό εργαλείο όσο και αυτό που μπορούμε να χρησιμοποιήσουμε στο τερματικό, δεν μπορούν να εξαγάγουν το κείμενο εάν το PDF είναι κατασκευασμένο από εικόνες (φωτογραφίες, σαρωμένες εικόνες βιβλίων κ.λπ.).

Στις περισσότερες διανομές Gnu / Linux, Το pdftotext περιλαμβάνεται ως μέρος του πακέτου poppler-utils. Αυτό το εργαλείο είναι ένα βοηθητικό πρόγραμμα γραμμής εντολών που μετατροπή αρχείων PDF σε απλό κείμενο. Σε αυτό θα βρούμε πολλές διαθέσιμες επιλογές, συμπεριλαμβανομένης της δυνατότητας καθορισμού του εύρους των σελίδων που θα μετατραπούν, της δυνατότητας διατήρησης της αρχικής φυσικής διάταξης του κειμένου όσο το δυνατόν καλύτερα, ορισμός τελικών γραμμών και ακόμη και εργασίας με αρχεία PDF που προστατεύονται με κωδικό πρόσβασης .

σχετικά με την κατάργηση ενός γνωστού κωδικού πρόσβασης από ένα pdf
σχετικό άρθρο:
Καταργήστε έναν γνωστό κωδικό πρόσβασης από ένα αρχείο PDF στο Ubutu

Εγκαταστήστε το pdftotext στο Ubuntu

Για να εγκαταστήσετε αυτό το εργαλείο στο σύστημά μας Ubuntu, σε περίπτωση που δεν το έχετε ήδη εγκαταστήσει, πρέπει απλώς να ανοίξετε ένα τερματικό (Ctrl + Alt + T) και να γράψετε την ακόλουθη εντολή σε αυτό εγκαταστήστε poppler-utils:

εγκατάσταση poppler utils

sudo apt install poppler-utils

Πώς να χρησιμοποιήσετε το pdftotext

Μετατροπή αρχείου PDF σε κείμενο

Μόλις εγκαταστήσουμε το πακέτο στο λειτουργικό μας σύστημα, μπορούμε να μετατρέψουμε ένα αρχείο PDF σε απλό κείμενο. Μπορώ προσπαθήστε να διατηρήσετε τον αρχικό σχεδιασμό χρησιμοποιώντας την επιλογή -σχέδιο με την εντολή, αλλά μπορούμε επίσης να δοκιμάσουμε χωρίς αυτήν. Σε ένα τερματικό (Ctrl + Alt + T) η εντολή που θα χρησιμοποιήσετε θα ήταν η ακόλουθη:

pdftotext μετατρέψτε το pdf σε απλό κείμενο

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Στην προηγούμενη εντολή θα πρέπει να αντικαταστήσουμε pdf-input.pdf με το όνομα του αρχείου PDF που μας ενδιαφέρει να μετατρέψουμε και pdf-output.txt με το όνομα του αρχείου TXT στο οποίο θέλουμε να αποθηκεύσουμε το κείμενο του αρχείου PDF εισαγωγής. Εάν δεν καθορίσουμε κανένα αρχείο κειμένου εξόδου, το pdftotext θα ονομάσει αυτόματα το αρχείο με το ίδιο όνομα με το αρχικό αρχείο PDF αλλά με επέκταση txt. Ένα άλλο πράγμα που μπορεί να είναι ενδιαφέρον να προσθέσετε στην εντολή θα είναι οι διαδρομές πριν από τα ονόματα των αρχείων, εάν είναι απαραίτητο (~ / Έγγραφα / pdf-input.pdf).

Μετατρέψτε μόνο ένα εύρος σελίδων PDF σε κείμενο

Εάν δεν μας ενδιαφέρει να μετατρέψουμε ολόκληρο το αρχείο PDF και το θέλουμε Περιορίστε μια σειρά σελίδων PDF για μετατροπή σε κείμενο θα είναι χρησιμοποιήστε την επιλογή -f (πρώτη σελίδα για μετατροπή) Και -l (τελευταία σελίδα για μετατροπή) ακολουθούμενη από κάθε επιλογή με τον αριθμό σελίδας. Η εντολή για χρήση θα ήταν κάτι σαν το εξής:

pdftotext -layout -f P -l U pdf-entrada.pdf

αποθηκεύστε σε μορφή κειμένου έναν δεδομένο αριθμό σελίδων ενός pdf

Στην προηγούμενη εντολή θα πρέπει αντικαταστήστε τα γράμματα P και U με τους αριθμούς πρώτης και τελευταίας σελίδας για εξαγωγή. Το όνομα του pdf-input.pdf Θα πρέπει επίσης να το αλλάξουμε και να του δώσουμε το όνομα του αρχείου PDF με το οποίο θέλουμε να εργαστούμε.

Χρησιμοποιήστε χαρακτήρες στο τέλος της γραμμής

Αυτό θα είμαστε σε θέση να προσδιορίσουμε χρησιμοποιώντας -eol ακολουθούμενο από mac, dos ή unix. Η ακόλουθη εντολή θα προσθέσει καταλήξεις γραμμής unix:

pdftotext -layout -eol unix pdf-entrada.pdf

βοήθεια

να ελέγξτε τις διαθέσιμες επιλογές, εκτελέστε τη σελίδα man:

άνθρωπος pdftotext

man pdftotext

Μπορείτε επίσης συμβουλευτείτε την επιλογή βοήθειας με την εντολή:

εντολή βοήθειας pdftotext

pdftotext --help

Μετατροπή αρχείων PDF από ένα φάκελο χρησιμοποιώντας βρόχο Bash FOR

Σε περίπτωση που θέλουμε να μετατρέψουμε όλα τα αρχεία PDF σε ένα φάκελο σε αρχεία κειμένου, Το pdftotext δεν υποστηρίζει μετατροπή παρτίδας από PDF σε κείμενο. Αυτό θα μπορέσουμε να το κάνουμε χρησιμοποιώντας ένα βρόχο Bash FOR στο τερματικό (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

να περισσότερες πληροφορίες σχετικά με το pdftotext, μπορείτε να συμβουλευτείτε το ιστοσελίδα του έργου. Σε περίπτωση που προτιμάτε να μην χρειάζεται να πληκτρολογείτε εντολές στο τερματικό, μπορείτε επίσης χρησιμοποιήστε α online υπηρεσία για να έχετε το ίδιο αποτέλεσμα.


Αφήστε το σχόλιό σας

Η διεύθυνση email σας δεν θα δημοσιευθεί. Τα υποχρεωτικά πεδία σημειώνονται με *

*

*

  1. Υπεύθυνος για τα δεδομένα: Miguel Ángel Gatón
  2. Σκοπός των δεδομένων: Έλεγχος SPAM, διαχείριση σχολίων.
  3. Νομιμοποίηση: Η συγκατάθεσή σας
  4. Κοινοποίηση των δεδομένων: Τα δεδομένα δεν θα κοινοποιούνται σε τρίτους, εκτός από νομική υποχρέωση.
  5. Αποθήκευση δεδομένων: Βάση δεδομένων που φιλοξενείται από τα δίκτυα Occentus (ΕΕ)
  6. Δικαιώματα: Ανά πάσα στιγμή μπορείτε να περιορίσετε, να ανακτήσετε και να διαγράψετε τις πληροφορίες σας.

  1.   Moypher Nightkrelin dijo

    Ναι, λοιπόν λειτουργεί, αλλά μερικές φορές πρέπει να κάνω OCR ή να χρησιμοποιήσω το Libre Office Draw.

    Επιπλέον, υπάρχουν πολλοί συντάκτες pdf. και προφανώς αυτό δεν συμβαίνει στο κείμενο των εικόνων, επομένως δεν το βλέπω πρακτικό.

    Και το Libre Office Draw είναι διαισθητικό και πρακτικό.