Pdftotext, převod PDF na text z terminálu

V příštím článku se podíváme na pdftotext. Toto je nástroj příkazového řádku s otevřeným zdrojovým kódem, který nám to umožní převádět soubory PDF na soubory prostého textu. V zásadě to, co dělá, je extrakce textových dat ze souborů PDF. Tento software je zdarma a je ve výchozím nastavení součástí mnoha distribucí Gnu / Linux.

V následujících řádcích uvidíme nástroj pro terminál, ale pro stejný účel extrakce textu ze souborů PDF můžete také použít grafický nástroj jako kalibr. Stojí za zmínku, že jak grafický nástroj, tak nástroj, který můžeme použít v terminálu, nemohou-li extrahovat text, pokud je PDF vytvořen z obrázků (fotografie, naskenované obrázky knih atd.).

Ve většině distribucí Gnu / Linux pdftotext je součástí balíčku poppler-utils. Tento nástroj je nástroj příkazového řádku, který převádět soubory PDF na prostý text. V něm najdeme mnoho dostupných možností, včetně možnosti určit rozsah stránek, které se mají převést, možnosti co nejlépe zachovat původní fyzické rozložení textu, nastavit konce řádků a dokonce pracovat se soubory PDF chráněnými heslem .

about quitar una contraseña conocida de un pdf

Související článek:

Odstraňte známé heslo ze souboru PDF v Ubutu

Nainstalujte pdftotext na Ubuntu

Chcete-li tento nástroj nainstalovat do našeho systému Ubuntu, pokud jej ještě nemáte nainstalovaný, stačí otevřít terminál (Ctrl + Alt + T) a napsat do něj následující příkaz nainstalovat poppler-utils:

sudo apt install poppler-utils

Jak používat pdftotext

Převeďte soubor PDF na text

Jakmile máme balíček nainstalovaný v našem operačním systému, můžeme převést soubor PDF na prostý text. Umět zkuste zachovat původní design pomocí této možnosti - vypršení s příkazem, ale můžeme to zkusit i bez něj. V terminálu (Ctrl + Alt + T) by měl být následující příkaz:

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

V předchozím příkazu bychom museli nahradit pdf-input.pdf s názvem souboru PDF, který máme zájem převést, a pdf-output.txt podle názvu souboru TXT, do kterého chceme uložit text vstupního souboru PDF. Pokud nezadáme žádný výstupní textový soubor, pdftotext automaticky pojmenuje soubor se stejným názvem jako původní soubor PDF, ale s příponou txt. Další věcí, kterou může být zajímavé přidat do příkazu, budou v případě potřeby cesty před názvy souborů (~ / Documents / pdf-input.pdf).

Převeďte na text pouze řadu stránek PDF

Pokud nemáme zájem převést celý soubor PDF a chceme zúžte rozsah stránek PDF, které chcete převést na text bude použijte volbu -f (první stránka k převodu) A -l (poslední stránka k převodu) následovaná každou z možností s číslem stránky. Příkaz, který se má použít, bude vypadat přibližně takto:

pdftotext -layout -f P -l U pdf-entrada.pdf

V předchozím příkazu budete muset nahraďte písmena P a U čísly první a poslední stránky extrahovat. Jméno pdf-input.pdf Také to budeme muset změnit a dát mu název souboru PDF, se kterým chceme pracovat.

Použijte znaky na konci řádku

To budeme moci specifikovat pomocí -eol následovaného mac, dos nebo unix. Následující příkaz přidá konce řádků unixu:

pdftotext -layout -eol unix pdf-entrada.pdf

pomoci

na zkontrolujte dostupné možnosti, spusťte manuálovou stránku:

man pdftotext

Můžete také konzultujte možnost nápovědy s příkazem:

pdftotext --help

Převeďte soubory PDF ze složky pomocí smyčky Bash FOR

V případě, že chceme převést všechny soubory PDF ve složce na textové soubory, pdftotext nepodporuje dávkový převod z PDF na text. toto budeme to moci udělat pomocí smyčky Bash FOR v terminálu (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

na více informací o pdftotext, můžete se obrátit na webové stránky projektu. Pokud nechcete v terminálu psát příkazy, můžete také použít a online služby získat stejný výsledek.

Zanechte svůj komentář Zrušit odpověď

Moypher Nightkrelin řekl
před 5 let

ano, dobře to funguje, ale někdy musím udělat OCR nebo použít Libre Office Draw.

Kromě toho existuje mnoho editorů PDF. a zjevně k tomu nedochází k textovým obrázkům, takže to nepovažuji za praktické.

A Libre Office Draw je intuitivní a praktické.

Odpověď Moypher Nigthkrelin

Ubunlog

Pdftotext, převeďte PDF na text z terminálu