I neste artikkel skal vi ta en titt på pdftotext. Dette er et åpen kildekode-kommandolinjeverktøy som lar oss konvertere PDF-filer til vanlige tekstfiler. I utgangspunktet er det å trekke ut tekstdataene fra PDF-filene. Denne programvaren er gratis og er inkludert som standard i mange Gnu / Linux-distribusjoner.
I de følgende linjene skal vi se et verktøy for terminalen, men for samme formål å trekke ut tekst fra PDF-filer Du kan også bruke et grafisk verktøy som kaliber. Det er verdt å merke seg at både det grafiske verktøyet og det vi kan bruke i terminalen, de kan ikke trekke ut teksten hvis PDF-en er laget av bilder (fotografier, skannede bokbilder osv.).
På de fleste Gnu / Linux-distribusjoner, pdftotext er inkludert som en del av poppler-utils-pakken. Dette verktøyet er et kommandolinjeprogram som konvertere PDF-filer til ren tekst. I den vil vi finne mange tilgjengelige alternativer, inkludert muligheten til å spesifisere sidene som skal konverteres, muligheten til å holde den opprinnelige fysiske utformingen av teksten best mulig, angi linjeendelser, og til og med jobbe med passordbeskyttede PDF-filer .
Installer pdftotext på Ubuntu
For å installere dette verktøyet på vårt Ubuntu-system, hvis du ikke allerede har det installert, må du bare åpne en terminal (Ctrl + Alt + T) og skrive følgende kommando i den til installer poppler-utils:
sudo apt install poppler-utils
Hvordan bruke pdftotext
Konverter en PDF-fil til tekst
Når vi har installert pakken på operativsystemet vårt, kan vi konvertere en PDF-fil til ren tekst. Kan prøv å beholde den originale designen ved hjelp av alternativet -oppsett med kommandoen, men vi kan også prøve uten den. I en terminal (Ctrl + Alt + T) vil kommandoen å bruke være følgende:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
I forrige kommando måtte vi erstatte pdf-inngang.pdf med navnet på PDF-filen som vi er interessert i å konvertere, og pdf-utgang.txt med navnet på TXT-filen der vi vil lagre teksten i den innlagte PDF-filen. Hvis vi ikke spesifiserer noen utdatatekstfil, vil pdftotext automatisk navngi filen med samme navn som den opprinnelige PDF-filen, men med en txt-utvidelse. En annen ting som kan være interessant å legge til i kommandoen, vil være stiene før filnavnene om nødvendig (~ / Dokumenter / pdf-input.pdf).
Konverter bare en rekke PDF-sider til tekst
Hvis vi ikke er interessert i å konvertere hele PDF-filen, og vi ønsker det begrense et utvalg av PDF-sider for å konvertere til tekst det vil være bruk -f alternativet (første side å konvertere) Og -l (siste side å konvertere) etterfulgt av hvert alternativ med sidenummeret. Kommandoen for å bruke vil være omtrent som følgende:
pdftotext -layout -f P -l U pdf-entrada.pdf
I forrige kommando må du erstatt bokstavene P og U med første og siste sidetall å ta ut. Navnet til pdf-inngang.pdf Vi må også endre den og gi den navnet på PDF-filen som vi vil jobbe med.
Bruk end-of-line-tegn
Dette vil vi kunne spesifisere ved hjelp av -eol etterfulgt av mac, dos eller unix. Følgende kommando vil legge til unix-linjeendelser:
pdftotext -layout -eol unix pdf-entrada.pdf
Hjelp
Til sjekk tilgjengelige alternativer, kjør mannssiden:
man pdftotext
Du kan også se hjelpealternativet med kommandoen:
pdftotext --help
Konverter PDF-filer fra en mappe ved hjelp av en Bash FOR-løkke
I tilfelle vi vil konvertere alle PDF-filer i en mappe til tekstfiler, pdftotext støtter ikke batchkonvertering fra PDF til tekst. Dette vi vil være i stand til å gjøre det ved hjelp av en Bash FOR-løkke i terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
Til mer informasjon om pdftotext, kan du konsultere prosjektnettsted. Hvis du foretrekker å ikke måtte skrive kommandoer i terminalen, kan du også bruk a online tjeneste for å få det samme resultatet.
ja, det fungerer bra, men noen ganger må jeg gjøre OCR eller bruke Libre Office Draw.
I tillegg er det mange pdf-redaktører. og tilsynelatende skjer dette ikke med tekst på bildene, så jeg ser det ikke som praktisk.
Og Libre Office Draw er intuitivt og praktisk.