I nästa artikel ska vi ta en titt på pdftotext. Detta är ett kommandoradsverktyg med öppen källkod som gör att vi kan konvertera PDF-filer till vanliga textfiler. I princip är det att extrahera textdata från PDF-filerna. Denna programvara är gratis och ingår som standard i många Gnu / Linux-distributioner.
I följande rader kommer vi att se ett verktyg för terminalen, men för samma ändamål att extrahera text från PDF-filer Du kan också använda ett grafiskt verktyg som kaliber. Det är värt att notera att både det grafiska verktyget och det som vi kan använda i terminalen, de kan inte extrahera texten om PDF-filen är gjord av bilder (fotografier, skannade bokbilder etc.).
På de flesta Gnu / Linux-distributioner, pdftotext ingår som en del av poppler-utils-paketet. Detta verktyg är ett kommandoradsverktyg som konvertera PDF-filer till vanlig text. I den kommer vi att hitta många tillgängliga alternativ, inklusive möjligheten att ange utbudet av sidor som ska konverteras, möjligheten att behålla den ursprungliga fysiska layouten på texten så bra som möjligt, ställa in radslut och till och med arbeta med lösenordsskyddade PDF-filer .
Installera pdftotext på Ubuntu
För att installera det här verktyget på vårt Ubuntu-system, om du inte redan har det installerat, måste du bara öppna en terminal (Ctrl + Alt + T) och skriva följande kommando i den till installera poppler-utils:
sudo apt install poppler-utils
Hur man använder pdftotext
Konvertera en PDF-fil till text
När vi väl har paketet installerat på vårt operativsystem kan vi konvertera en PDF-fil till vanlig text. Burk försök att behålla den ursprungliga designen med hjälp av alternativet -layout med kommandot, men vi kan också försöka utan det. I en terminal (Ctrl + Alt + T) skulle kommandot att använda vara följande:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
I föregående kommando skulle vi behöva ersätta pdf-input.pdf med namnet på PDF-filen som vi är intresserade av att konvertera, och pdf-output.txt med namnet på TXT-filen där vi vill spara texten i den inmatade PDF-filen. Om vi inte anger någon utdatatextfil kommer pdftotext automatiskt att namnge filen med samma namn som den ursprungliga PDF-filen men med ett txt-tillägg. En annan sak som kan vara intressant att lägga till i kommandot är sökvägarna före filnamnen om det behövs (~ / Dokument / pdf-input.pdf).
Konvertera endast ett antal PDF-sidor till text
Om vi inte är intresserade av att konvertera hela PDF-filen, och vi vill begränsa ett antal PDF-sidor för att konvertera till text det kommer vara använd -f-alternativet (första sidan att konvertera) Och -l (sista sidan att konvertera) följt av vart och ett av alternativen med sidnumret. Kommandot att använda skulle vara ungefär följande:
pdftotext -layout -f P -l U pdf-entrada.pdf
I föregående kommando måste du ersätt bokstäverna P och U med första och sista sidnummer att utvinna. Namnet på pdf-input.pdf Vi måste också ändra den och ge den namnet på den PDF-fil som vi vill arbeta med.
Använd slutet av raden
Detta kommer vi att kunna specificera med -eol följt av mac, dos eller unix. Följande kommando lägger till unix-radslut:
pdftotext -layout -eol unix pdf-entrada.pdf
Hjälp
till kontrollera tillgängliga alternativ, kör mansidan:
man pdftotext
Du kan också konsultera hjälpalternativet med kommandot:
pdftotext --help
Konvertera PDF-filer från en mapp med en Bash FOR-loop
Om vi vill konvertera alla PDF-filer i en mapp till textfiler, pdftotext stöder inte batchkonvertering från PDF till text. detta vi kommer att kunna göra det med en Bash FOR-loop i terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
till mer information om pdftotextkan du konsultera projektwebbplats. Om du föredrar att inte behöva skriva kommandon i terminalen kan du också använd a onlinetjänst för att få samma resultat.
ja, det fungerar bra, men ibland måste jag göra OCR eller använda Libre Office Draw.
Dessutom finns det många pdf-redaktörer. och uppenbarligen händer detta inte att texta bilderna, så jag ser det inte som praktiskt.
Och Libre Office Draw är intuitivt och praktiskt.