Pdftotext, konverter en PDF til tekst fra terminalen

om pdftotext

I den næste artikel skal vi se på pdftotext. Dette er et open source kommandolinjeværktøj, der giver os mulighed for det konvertere PDF-filer til almindelige tekstfiler. Grundlæggende hvad det gør er at udtrække tekstdataene fra PDF-filerne. Denne software er gratis og er inkluderet som standard i mange Gnu / Linux-distributioner.

I de følgende linjer vil vi se et værktøj til terminalen, men med det samme formål at udtrække tekst fra PDF-filer Du kan også bruge et grafisk værktøj som f.eks kaliber. Det er værd at bemærke, at både det grafiske værktøj og det, vi kan bruge i terminalen, de kan ikke udtrække teksten, hvis PDF-filen er lavet af billeder (fotografier, scannede bogbilleder osv.).

På de fleste Gnu / Linux-distributioner pdftotext er inkluderet som en del af poppler-utils-pakken. Dette værktøj er et kommandolinjeprogram, der konvertere PDF-filer til almindelig tekst. I den finder vi mange tilgængelige muligheder, herunder muligheden for at specificere rækkevidden af ​​sider, der skal konverteres, muligheden for at holde det originale fysiske layout af teksten bedst muligt, indstille linieendelser og endda arbejde med adgangskodebeskyttede PDF-filer .

om at fjerne en kendt adgangskode fra en pdf
relateret artikel:
Fjern en kendt adgangskode fra en PDF-fil i Ubutu

Installer pdftotext på Ubuntu

For at installere dette værktøj på vores Ubuntu-system, hvis du ikke allerede har det installeret, skal du bare åbne en terminal (Ctrl + Alt + T) og skrive følgende kommando i den til installer poppler-værktøjer:

installer poppler-værktøjer

sudo apt install poppler-utils

Sådan bruges pdftotext

Konverter en PDF-fil til tekst

Når vi har pakken installeret på vores operativsystem, kan vi konvertere en PDF-fil til almindelig tekst. Kan prøv at beholde det originale design ved hjælp af muligheden -layout med kommandoen, men vi kan også prøve uden den. I en terminal (Ctrl + Alt + T) er kommandoen, der skal bruges, følgende:

pdftotext konvertere pdf til almindelig tekst

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

I den forrige kommando skulle vi erstatte pdf-input.pdf med navnet på den PDF-fil, som vi er interesseret i at konvertere, og pdf-output.txt ved navnet på den TXT-fil, hvor vi vil gemme teksten i input-PDF-filen. Hvis vi ikke angiver nogen outputtekstfil, navngiver pdftotext automatisk filen med det samme navn som den originale PDF-fil, men med en txt-udvidelse. En anden ting, der kan være interessant at tilføje til kommandoen, er stierne før filnavnene, hvis det er nødvendigt (~ / Dokumenter / pdf-input.pdf).

Konverter kun en række PDF-sider til tekst

Hvis vi ikke er interesseret i at konvertere hele PDF-filen, og vi ønsker det indsnævre en række PDF-sider for at konvertere til tekst der vil være brug -f option (første side, der skal konverteres) Og -l (sidste side at konvertere) efterfulgt af hver mulighed med sidetallet. Kommandoen til at bruge ville være noget i retning af følgende:

pdftotext -layout -f P -l U pdf-entrada.pdf

gemme et givet antal sider i en pdf i tekstformat

I den forrige kommando skal du udskift bogstaverne P og U med det første og sidste sidetal at udtrække. Navnet på pdf-input.pdf Vi bliver også nødt til at ændre det og give det navnet på den PDF-fil, som vi vil arbejde med.

Brug sluttegnstegn

Dette vil vi være i stand til at specificere ved hjælp af -eol efterfulgt af mac, dos eller unix. Den følgende kommando tilføjer unix-linieendelser:

pdftotext -layout -eol unix pdf-entrada.pdf

hjælpe

til tjek tilgængelige muligheder, kør mandsiden:

mand pdftotext

man pdftotext

Du kan også se hjælpemuligheden med kommandoen:

hjælp kommando pdftotext

pdftotext --help

Konverter PDF-filer fra en mappe ved hjælp af en Bash FOR-loop

Hvis vi vil konvertere alle PDF-filer i en mappe til tekstfiler, pdftotext understøtter ikke batchkonvertering fra PDF til tekst. dette vi vil være i stand til at gøre det ved hjælp af en Bash FOR-løkke i terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

til flere oplysninger om pdftotext, kan du konsultere projektwebsted. Hvis du foretrækker ikke at skulle skrive kommandoer i terminalen, kan du også brug a online service for at få det samme resultat.


Efterlad din kommentar

Din e-mailadresse vil ikke blive offentliggjort. Obligatoriske felter er markeret med *

*

*

  1. Ansvarlig for dataene: Miguel Ángel Gatón
  2. Formålet med dataene: Control SPAM, management af kommentarer.
  3. Legitimering: Dit samtykke
  4. Kommunikation af dataene: Dataene vil ikke blive kommunikeret til tredjemand, undtagen ved juridisk forpligtelse.
  5. Datalagring: Database hostet af Occentus Networks (EU)
  6. Rettigheder: Du kan til enhver tid begrænse, gendanne og slette dine oplysninger.

  1.   Moypher Nightkrelin sagde han

    ja, det fungerer godt, men nogle gange er jeg nødt til at lave OCR eller bruge Libre Office Draw.

    Derudover er der mange pdf-redaktører. og tilsyneladende sker dette ikke med at sende tekst til billederne, så jeg kan ikke se det praktisk.

    Og Libre Office Draw er intuitivt og praktisk.