Pdftotext, konverter en PDF til tekst fra terminalen

I neste artikkel skal vi ta en titt på pdftotext. Dette er et åpen kildekode-kommandolinjeverktøy som lar oss konvertere PDF-filer til vanlige tekstfiler. I utgangspunktet er det å trekke ut tekstdataene fra PDF-filene. Denne programvaren er gratis og er inkludert som standard i mange Gnu / Linux-distribusjoner.

I de følgende linjene skal vi se et verktøy for terminalen, men for samme formål å trekke ut tekst fra PDF-filer Du kan også bruke et grafisk verktøy som kaliber. Det er verdt å merke seg at både det grafiske verktøyet og det vi kan bruke i terminalen, de kan ikke trekke ut teksten hvis PDF-en er laget av bilder (fotografier, skannede bokbilder osv.).

På de fleste Gnu / Linux-distribusjoner, pdftotext er inkludert som en del av poppler-utils-pakken. Dette verktøyet er et kommandolinjeprogram som konvertere PDF-filer til ren tekst. I den vil vi finne mange tilgjengelige alternativer, inkludert muligheten til å spesifisere sidene som skal konverteres, muligheten til å holde den opprinnelige fysiske utformingen av teksten best mulig, angi linjeendelser, og til og med jobbe med passordbeskyttede PDF-filer .

about quitar una contraseña conocida de un pdf

Relatert artikkel:

Fjern et kjent passord fra en PDF-fil i Ubutu

Installer pdftotext på Ubuntu

For å installere dette verktøyet på vårt Ubuntu-system, hvis du ikke allerede har det installert, må du bare åpne en terminal (Ctrl + Alt + T) og skrive følgende kommando i den til installer poppler-utils:

sudo apt install poppler-utils

Hvordan bruke pdftotext

Konverter en PDF-fil til tekst

Når vi har installert pakken på operativsystemet vårt, kan vi konvertere en PDF-fil til ren tekst. Kan prøv å beholde den originale designen ved hjelp av alternativet -oppsett med kommandoen, men vi kan også prøve uten den. I en terminal (Ctrl + Alt + T) vil kommandoen å bruke være følgende:

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

I forrige kommando måtte vi erstatte pdf-inngang.pdf med navnet på PDF-filen som vi er interessert i å konvertere, og pdf-utgang.txt med navnet på TXT-filen der vi vil lagre teksten i den innlagte PDF-filen. Hvis vi ikke spesifiserer noen utdatatekstfil, vil pdftotext automatisk navngi filen med samme navn som den opprinnelige PDF-filen, men med en txt-utvidelse. En annen ting som kan være interessant å legge til i kommandoen, vil være stiene før filnavnene om nødvendig (~ / Dokumenter / pdf-input.pdf).

Konverter bare en rekke PDF-sider til tekst

Hvis vi ikke er interessert i å konvertere hele PDF-filen, og vi ønsker det begrense et utvalg av PDF-sider for å konvertere til tekst det vil være bruk -f alternativet (første side å konvertere) Og -l (siste side å konvertere) etterfulgt av hvert alternativ med sidenummeret. Kommandoen for å bruke vil være omtrent som følgende:

pdftotext -layout -f P -l U pdf-entrada.pdf

I forrige kommando må du erstatt bokstavene P og U med første og siste sidetall å ta ut. Navnet til pdf-inngang.pdf Vi må også endre den og gi den navnet på PDF-filen som vi vil jobbe med.

Bruk end-of-line-tegn

Dette vil vi kunne spesifisere ved hjelp av -eol etterfulgt av mac, dos eller unix. Følgende kommando vil legge til unix-linjeendelser:

pdftotext -layout -eol unix pdf-entrada.pdf

Hjelp

Til sjekk tilgjengelige alternativer, kjør mannssiden:

man pdftotext

Du kan også se hjelpealternativet med kommandoen:

pdftotext --help

Konverter PDF-filer fra en mappe ved hjelp av en Bash FOR-løkke

I tilfelle vi vil konvertere alle PDF-filer i en mappe til tekstfiler, pdftotext støtter ikke batchkonvertering fra PDF til tekst. Dette vi vil være i stand til å gjøre det ved hjelp av en Bash FOR-løkke i terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

Til mer informasjon om pdftotext, kan du konsultere prosjektnettsted. Hvis du foretrekker å ikke måtte skrive kommandoer i terminalen, kan du også bruk a online tjeneste for å få det samme resultatet.

Legg igjen kommentaren Avbryt svar

Moypher Nightkrelin sa
hace 5 år

ja, det fungerer bra, men noen ganger må jeg gjøre OCR eller bruke Libre Office Draw.

I tillegg er det mange pdf-redaktører. og tilsynelatende skjer dette ikke med tekst på bildene, så jeg ser det ikke som praktisk.

Og Libre Office Draw er intuitivt og praktisk.

Svar på Moypher Nigthkrelin