Pdftotext, konvertera en PDF till text från terminalen

om pdftotext

I nästa artikel ska vi ta en titt på pdftotext. Detta är ett kommandoradsverktyg med öppen källkod som gör att vi kan konvertera PDF-filer till vanliga textfiler. I princip är det att extrahera textdata från PDF-filerna. Denna programvara är gratis och ingår som standard i många Gnu / Linux-distributioner.

I följande rader kommer vi att se ett verktyg för terminalen, men för samma ändamål att extrahera text från PDF-filer Du kan också använda ett grafiskt verktyg som kaliber. Det är värt att notera att både det grafiska verktyget och det som vi kan använda i terminalen, de kan inte extrahera texten om PDF-filen är gjord av bilder (fotografier, skannade bokbilder etc.).

På de flesta Gnu / Linux-distributioner, pdftotext ingår som en del av poppler-utils-paketet. Detta verktyg är ett kommandoradsverktyg som konvertera PDF-filer till vanlig text. I den kommer vi att hitta många tillgängliga alternativ, inklusive möjligheten att ange utbudet av sidor som ska konverteras, möjligheten att behålla den ursprungliga fysiska layouten på texten så bra som möjligt, ställa in radslut och till och med arbeta med lösenordsskyddade PDF-filer .

om att ta bort ett känt lösenord från en pdf
Relaterad artikel:
Ta bort ett känt lösenord från en PDF-fil i Ubutu

Installera pdftotext på Ubuntu

För att installera det här verktyget på vårt Ubuntu-system, om du inte redan har det installerat, måste du bara öppna en terminal (Ctrl + Alt + T) och skriva följande kommando i den till installera poppler-utils:

installera poppler-verktyg

sudo apt install poppler-utils

Hur man använder pdftotext

Konvertera en PDF-fil till text

När vi väl har paketet installerat på vårt operativsystem kan vi konvertera en PDF-fil till vanlig text. Burk försök att behålla den ursprungliga designen med hjälp av alternativet -layout med kommandot, men vi kan också försöka utan det. I en terminal (Ctrl + Alt + T) skulle kommandot att använda vara följande:

pdftotext konvertera pdf till vanlig text

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

I föregående kommando skulle vi behöva ersätta pdf-input.pdf med namnet på PDF-filen som vi är intresserade av att konvertera, och pdf-output.txt med namnet på TXT-filen där vi vill spara texten i den inmatade PDF-filen. Om vi ​​inte anger någon utdatatextfil kommer pdftotext automatiskt att namnge filen med samma namn som den ursprungliga PDF-filen men med ett txt-tillägg. En annan sak som kan vara intressant att lägga till i kommandot är sökvägarna före filnamnen om det behövs (~ / Dokument / pdf-input.pdf).

Konvertera endast ett antal PDF-sidor till text

Om vi ​​inte är intresserade av att konvertera hela PDF-filen, och vi vill begränsa ett antal PDF-sidor för att konvertera till text det kommer vara använd -f-alternativet (första sidan att konvertera) Och -l (sista sidan att konvertera) följt av vart och ett av alternativen med sidnumret. Kommandot att använda skulle vara ungefär följande:

pdftotext -layout -f P -l U pdf-entrada.pdf

spara i textformat ett givet antal sidor i en pdf

I föregående kommando måste du ersätt bokstäverna P och U med första och sista sidnummer att utvinna. Namnet på pdf-input.pdf Vi måste också ändra den och ge den namnet på den PDF-fil som vi vill arbeta med.

Använd slutet av raden

Detta kommer vi att kunna specificera med -eol följt av mac, dos eller unix. Följande kommando lägger till unix-radslut:

pdftotext -layout -eol unix pdf-entrada.pdf

Hjälp

till kontrollera tillgängliga alternativ, kör mansidan:

man pdftotext

man pdftotext

Du kan också konsultera hjälpalternativet med kommandot:

hjälp kommandot pdftotext

pdftotext --help

Konvertera PDF-filer från en mapp med en Bash FOR-loop

Om vi ​​vill konvertera alla PDF-filer i en mapp till textfiler, pdftotext stöder inte batchkonvertering från PDF till text. detta vi kommer att kunna göra det med en Bash FOR-loop i terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

till mer information om pdftotextkan du konsultera projektwebbplats. Om du föredrar att inte behöva skriva kommandon i terminalen kan du också använd a onlinetjänst för att få samma resultat.


Lämna din kommentar

Din e-postadress kommer inte att publiceras. Obligatoriska fält är markerade med *

*

*

  1. Ansvarig för uppgifterna: Miguel Ángel Gatón
  2. Syftet med uppgifterna: Kontrollera skräppost, kommentarhantering.
  3. Legitimering: Ditt samtycke
  4. Kommunikation av uppgifterna: Uppgifterna kommer inte att kommuniceras till tredje part förutom enligt laglig skyldighet.
  5. Datalagring: databas värd för Occentus Networks (EU)
  6. Rättigheter: När som helst kan du begränsa, återställa och radera din information.

  1.   Moypher Nightkrelin sade

    ja, det fungerar bra, men ibland måste jag göra OCR eller använda Libre Office Draw.

    Dessutom finns det många pdf-redaktörer. och uppenbarligen händer detta inte att texta bilderna, så jag ser det inte som praktiskt.

    Och Libre Office Draw är intuitivt och praktiskt.