Pdftotext, konverter en PDF til tekst fra terminalen

om pdftotext

I neste artikkel skal vi ta en titt på pdftotext. Dette er et åpen kildekode-kommandolinjeverktøy som lar oss konvertere PDF-filer til vanlige tekstfiler. I utgangspunktet er det å trekke ut tekstdataene fra PDF-filene. Denne programvaren er gratis og er inkludert som standard i mange Gnu / Linux-distribusjoner.

I de følgende linjene skal vi se et verktøy for terminalen, men for samme formål å trekke ut tekst fra PDF-filer Du kan også bruke et grafisk verktøy som kaliber. Det er verdt å merke seg at både det grafiske verktøyet og det vi kan bruke i terminalen, de kan ikke trekke ut teksten hvis PDF-en er laget av bilder (fotografier, skannede bokbilder osv.).

På de fleste Gnu / Linux-distribusjoner, pdftotext er inkludert som en del av poppler-utils-pakken. Dette verktøyet er et kommandolinjeprogram som konvertere PDF-filer til ren tekst. I den vil vi finne mange tilgjengelige alternativer, inkludert muligheten til å spesifisere sidene som skal konverteres, muligheten til å holde den opprinnelige fysiske utformingen av teksten best mulig, angi linjeendelser, og til og med jobbe med passordbeskyttede PDF-filer .

om å fjerne et kjent passord fra en pdf
Relatert artikkel:
Fjern et kjent passord fra en PDF-fil i Ubutu

Installer pdftotext på Ubuntu

For å installere dette verktøyet på vårt Ubuntu-system, hvis du ikke allerede har det installert, må du bare åpne en terminal (Ctrl + Alt + T) og skrive følgende kommando i den til installer poppler-utils:

installer popplerverktøy

sudo apt install poppler-utils

Hvordan bruke pdftotext

Konverter en PDF-fil til tekst

Når vi har installert pakken på operativsystemet vårt, kan vi konvertere en PDF-fil til ren tekst. Kan prøv å beholde den originale designen ved hjelp av alternativet -oppsett med kommandoen, men vi kan også prøve uten den. I en terminal (Ctrl + Alt + T) vil kommandoen å bruke være følgende:

pdftotext konvertere pdf til ren tekst

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

I forrige kommando måtte vi erstatte pdf-inngang.pdf med navnet på PDF-filen som vi er interessert i å konvertere, og pdf-utgang.txt med navnet på TXT-filen der vi vil lagre teksten i den innlagte PDF-filen. Hvis vi ikke spesifiserer noen utdatatekstfil, vil pdftotext automatisk navngi filen med samme navn som den opprinnelige PDF-filen, men med en txt-utvidelse. En annen ting som kan være interessant å legge til i kommandoen, vil være stiene før filnavnene om nødvendig (~ / Dokumenter / pdf-input.pdf).

Konverter bare en rekke PDF-sider til tekst

Hvis vi ikke er interessert i å konvertere hele PDF-filen, og vi ønsker det begrense et utvalg av PDF-sider for å konvertere til tekst det vil være bruk -f alternativet (første side å konvertere) Og -l (siste side å konvertere) etterfulgt av hvert alternativ med sidenummeret. Kommandoen for å bruke vil være omtrent som følgende:

pdftotext -layout -f P -l U pdf-entrada.pdf

lagre i tekstformat et gitt antall sider i en pdf

I forrige kommando må du erstatt bokstavene P og U med første og siste sidetall å ta ut. Navnet til pdf-inngang.pdf Vi må også endre den og gi den navnet på PDF-filen som vi vil jobbe med.

Bruk end-of-line-tegn

Dette vil vi kunne spesifisere ved hjelp av -eol etterfulgt av mac, dos eller unix. Følgende kommando vil legge til unix-linjeendelser:

pdftotext -layout -eol unix pdf-entrada.pdf

Hjelp

Til sjekk tilgjengelige alternativer, kjør mannssiden:

mann pdftotext

man pdftotext

Du kan også se hjelpealternativet med kommandoen:

hjelp kommando pdftotext

pdftotext --help

Konverter PDF-filer fra en mappe ved hjelp av en Bash FOR-løkke

I tilfelle vi vil konvertere alle PDF-filer i en mappe til tekstfiler, pdftotext støtter ikke batchkonvertering fra PDF til tekst. Dette vi vil være i stand til å gjøre det ved hjelp av en Bash FOR-løkke i terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

Til mer informasjon om pdftotext, kan du konsultere prosjektnettsted. Hvis du foretrekker å ikke måtte skrive kommandoer i terminalen, kan du også bruk a online tjeneste for å få det samme resultatet.


Legg igjen kommentaren

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Kontroller SPAM, kommentaradministrasjon.
  3. Legitimering: Ditt samtykke
  4. Kommunikasjon av dataene: Dataene vil ikke bli kommunisert til tredjeparter bortsett fra ved juridisk forpliktelse.
  5. Datalagring: Database vert for Occentus Networks (EU)
  6. Rettigheter: Når som helst kan du begrense, gjenopprette og slette informasjonen din.

  1.   Moypher Nightkrelin sa

    ja, det fungerer bra, men noen ganger må jeg gjøre OCR eller bruke Libre Office Draw.

    I tillegg er det mange pdf-redaktører. og tilsynelatende skjer dette ikke med tekst på bildene, så jeg ser det ikke som praktisk.

    Og Libre Office Draw er intuitivt og praktisk.