Στο επόμενο άρθρο θα ρίξουμε μια ματιά στο pdftotext. Αυτό είναι ένα βοηθητικό πρόγραμμα γραμμής εντολών ανοιχτού κώδικα που θα μας επιτρέψει μετατροπή αρχείων PDF σε αρχεία απλού κειμένου. Βασικά αυτό που κάνει είναι να εξαγάγετε τα δεδομένα κειμένου από τα αρχεία PDF. Αυτό το λογισμικό είναι δωρεάν και περιλαμβάνεται από προεπιλογή σε πολλές διανομές Gnu / Linux.
Στις ακόλουθες γραμμές θα δούμε ένα εργαλείο για το τερματικό, αλλά για τον ίδιο σκοπό την εξαγωγή κειμένου από αρχεία PDF μπορείτε επίσης να χρησιμοποιήσετε ένα γραφικό εργαλείο όπως διαμέτρημα. Αξίζει να σημειωθεί ότι τόσο το γραφικό εργαλείο όσο και αυτό που μπορούμε να χρησιμοποιήσουμε στο τερματικό, δεν μπορούν να εξαγάγουν το κείμενο εάν το PDF είναι κατασκευασμένο από εικόνες (φωτογραφίες, σαρωμένες εικόνες βιβλίων κ.λπ.).
Στις περισσότερες διανομές Gnu / Linux, Το pdftotext περιλαμβάνεται ως μέρος του πακέτου poppler-utils. Αυτό το εργαλείο είναι ένα βοηθητικό πρόγραμμα γραμμής εντολών που μετατροπή αρχείων PDF σε απλό κείμενο. Σε αυτό θα βρούμε πολλές διαθέσιμες επιλογές, συμπεριλαμβανομένης της δυνατότητας καθορισμού του εύρους των σελίδων που θα μετατραπούν, της δυνατότητας διατήρησης της αρχικής φυσικής διάταξης του κειμένου όσο το δυνατόν καλύτερα, ορισμός τελικών γραμμών και ακόμη και εργασίας με αρχεία PDF που προστατεύονται με κωδικό πρόσβασης .
Εγκαταστήστε το pdftotext στο Ubuntu
Για να εγκαταστήσετε αυτό το εργαλείο στο σύστημά μας Ubuntu, σε περίπτωση που δεν το έχετε ήδη εγκαταστήσει, πρέπει απλώς να ανοίξετε ένα τερματικό (Ctrl + Alt + T) και να γράψετε την ακόλουθη εντολή σε αυτό εγκαταστήστε poppler-utils:
sudo apt install poppler-utils
Πώς να χρησιμοποιήσετε το pdftotext
Μετατροπή αρχείου PDF σε κείμενο
Μόλις εγκαταστήσουμε το πακέτο στο λειτουργικό μας σύστημα, μπορούμε να μετατρέψουμε ένα αρχείο PDF σε απλό κείμενο. Μπορώ προσπαθήστε να διατηρήσετε τον αρχικό σχεδιασμό χρησιμοποιώντας την επιλογή -σχέδιο με την εντολή, αλλά μπορούμε επίσης να δοκιμάσουμε χωρίς αυτήν. Σε ένα τερματικό (Ctrl + Alt + T) η εντολή που θα χρησιμοποιήσετε θα ήταν η ακόλουθη:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Στην προηγούμενη εντολή θα πρέπει να αντικαταστήσουμε pdf-input.pdf με το όνομα του αρχείου PDF που μας ενδιαφέρει να μετατρέψουμε και pdf-output.txt με το όνομα του αρχείου TXT στο οποίο θέλουμε να αποθηκεύσουμε το κείμενο του αρχείου PDF εισαγωγής. Εάν δεν καθορίσουμε κανένα αρχείο κειμένου εξόδου, το pdftotext θα ονομάσει αυτόματα το αρχείο με το ίδιο όνομα με το αρχικό αρχείο PDF αλλά με επέκταση txt. Ένα άλλο πράγμα που μπορεί να είναι ενδιαφέρον να προσθέσετε στην εντολή θα είναι οι διαδρομές πριν από τα ονόματα των αρχείων, εάν είναι απαραίτητο (~ / Έγγραφα / pdf-input.pdf).
Μετατρέψτε μόνο ένα εύρος σελίδων PDF σε κείμενο
Εάν δεν μας ενδιαφέρει να μετατρέψουμε ολόκληρο το αρχείο PDF και το θέλουμε Περιορίστε μια σειρά σελίδων PDF για μετατροπή σε κείμενο θα είναι χρησιμοποιήστε την επιλογή -f (πρώτη σελίδα για μετατροπή) Και -l (τελευταία σελίδα για μετατροπή) ακολουθούμενη από κάθε επιλογή με τον αριθμό σελίδας. Η εντολή για χρήση θα ήταν κάτι σαν το εξής:
pdftotext -layout -f P -l U pdf-entrada.pdf
Στην προηγούμενη εντολή θα πρέπει αντικαταστήστε τα γράμματα P και U με τους αριθμούς πρώτης και τελευταίας σελίδας για εξαγωγή. Το όνομα του pdf-input.pdf Θα πρέπει επίσης να το αλλάξουμε και να του δώσουμε το όνομα του αρχείου PDF με το οποίο θέλουμε να εργαστούμε.
Χρησιμοποιήστε χαρακτήρες στο τέλος της γραμμής
Αυτό θα είμαστε σε θέση να προσδιορίσουμε χρησιμοποιώντας -eol ακολουθούμενο από mac, dos ή unix. Η ακόλουθη εντολή θα προσθέσει καταλήξεις γραμμής unix:
pdftotext -layout -eol unix pdf-entrada.pdf
βοήθεια
να ελέγξτε τις διαθέσιμες επιλογές, εκτελέστε τη σελίδα man:
man pdftotext
Μπορείτε επίσης συμβουλευτείτε την επιλογή βοήθειας με την εντολή:
pdftotext --help
Μετατροπή αρχείων PDF από ένα φάκελο χρησιμοποιώντας βρόχο Bash FOR
Σε περίπτωση που θέλουμε να μετατρέψουμε όλα τα αρχεία PDF σε ένα φάκελο σε αρχεία κειμένου, Το pdftotext δεν υποστηρίζει μετατροπή παρτίδας από PDF σε κείμενο. Αυτό θα μπορέσουμε να το κάνουμε χρησιμοποιώντας ένα βρόχο Bash FOR στο τερματικό (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
να περισσότερες πληροφορίες σχετικά με το pdftotext, μπορείτε να συμβουλευτείτε το ιστοσελίδα του έργου. Σε περίπτωση που προτιμάτε να μην χρειάζεται να πληκτρολογείτε εντολές στο τερματικό, μπορείτε επίσης χρησιμοποιήστε α online υπηρεσία για να έχετε το ίδιο αποτέλεσμα.
Ναι, λοιπόν λειτουργεί, αλλά μερικές φορές πρέπει να κάνω OCR ή να χρησιμοποιήσω το Libre Office Draw.
Επιπλέον, υπάρχουν πολλοί συντάκτες pdf. και προφανώς αυτό δεν συμβαίνει στο κείμενο των εικόνων, επομένως δεν το βλέπω πρακτικό.
Και το Libre Office Draw είναι διαισθητικό και πρακτικό.