I den næste artikel skal vi se på pdftotext. Dette er et open source kommandolinjeværktøj, der giver os mulighed for det konvertere PDF-filer til almindelige tekstfiler. Grundlæggende hvad det gør er at udtrække tekstdataene fra PDF-filerne. Denne software er gratis og er inkluderet som standard i mange Gnu / Linux-distributioner.
I de følgende linjer vil vi se et værktøj til terminalen, men med det samme formål at udtrække tekst fra PDF-filer Du kan også bruge et grafisk værktøj som f.eks kaliber. Det er værd at bemærke, at både det grafiske værktøj og det, vi kan bruge i terminalen, de kan ikke udtrække teksten, hvis PDF-filen er lavet af billeder (fotografier, scannede bogbilleder osv.).
På de fleste Gnu / Linux-distributioner pdftotext er inkluderet som en del af poppler-utils-pakken. Dette værktøj er et kommandolinjeprogram, der konvertere PDF-filer til almindelig tekst. I den finder vi mange tilgængelige muligheder, herunder muligheden for at specificere rækkevidden af sider, der skal konverteres, muligheden for at holde det originale fysiske layout af teksten bedst muligt, indstille linieendelser og endda arbejde med adgangskodebeskyttede PDF-filer .
Installer pdftotext på Ubuntu
For at installere dette værktøj på vores Ubuntu-system, hvis du ikke allerede har det installeret, skal du bare åbne en terminal (Ctrl + Alt + T) og skrive følgende kommando i den til installer poppler-værktøjer:
sudo apt install poppler-utils
Sådan bruges pdftotext
Konverter en PDF-fil til tekst
Når vi har pakken installeret på vores operativsystem, kan vi konvertere en PDF-fil til almindelig tekst. Kan prøv at beholde det originale design ved hjælp af muligheden -layout med kommandoen, men vi kan også prøve uden den. I en terminal (Ctrl + Alt + T) er kommandoen, der skal bruges, følgende:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
I den forrige kommando skulle vi erstatte pdf-input.pdf med navnet på den PDF-fil, som vi er interesseret i at konvertere, og pdf-output.txt ved navnet på den TXT-fil, hvor vi vil gemme teksten i input-PDF-filen. Hvis vi ikke angiver nogen outputtekstfil, navngiver pdftotext automatisk filen med det samme navn som den originale PDF-fil, men med en txt-udvidelse. En anden ting, der kan være interessant at tilføje til kommandoen, er stierne før filnavnene, hvis det er nødvendigt (~ / Dokumenter / pdf-input.pdf).
Konverter kun en række PDF-sider til tekst
Hvis vi ikke er interesseret i at konvertere hele PDF-filen, og vi ønsker det indsnævre en række PDF-sider for at konvertere til tekst der vil være brug -f option (første side, der skal konverteres) Og -l (sidste side at konvertere) efterfulgt af hver mulighed med sidetallet. Kommandoen til at bruge ville være noget i retning af følgende:
pdftotext -layout -f P -l U pdf-entrada.pdf
I den forrige kommando skal du udskift bogstaverne P og U med det første og sidste sidetal at udtrække. Navnet på pdf-input.pdf Vi bliver også nødt til at ændre det og give det navnet på den PDF-fil, som vi vil arbejde med.
Brug sluttegnstegn
Dette vil vi være i stand til at specificere ved hjælp af -eol efterfulgt af mac, dos eller unix. Den følgende kommando tilføjer unix-linieendelser:
pdftotext -layout -eol unix pdf-entrada.pdf
hjælpe
til tjek tilgængelige muligheder, kør mandsiden:
man pdftotext
Du kan også se hjælpemuligheden med kommandoen:
pdftotext --help
Konverter PDF-filer fra en mappe ved hjælp af en Bash FOR-loop
Hvis vi vil konvertere alle PDF-filer i en mappe til tekstfiler, pdftotext understøtter ikke batchkonvertering fra PDF til tekst. dette vi vil være i stand til at gøre det ved hjælp af en Bash FOR-løkke i terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
til flere oplysninger om pdftotext, kan du konsultere projektwebsted. Hvis du foretrækker ikke at skulle skrive kommandoer i terminalen, kan du også brug a online service for at få det samme resultat.
ja, det fungerer godt, men nogle gange er jeg nødt til at lave OCR eller bruge Libre Office Draw.
Derudover er der mange pdf-redaktører. og tilsyneladende sker dette ikke med at sende tekst til billederne, så jeg kan ikke se det praktisk.
Og Libre Office Draw er intuitivt og praktisk.