Pdftotext, převeďte PDF na text z terminálu

o pdftotext

V příštím článku se podíváme na pdftotext. Toto je nástroj příkazového řádku s otevřeným zdrojovým kódem, který nám to umožní převádět soubory PDF na soubory prostého textu. V zásadě to, co dělá, je extrakce textových dat ze souborů PDF. Tento software je zdarma a je ve výchozím nastavení součástí mnoha distribucí Gnu / Linux.

V následujících řádcích uvidíme nástroj pro terminál, ale pro stejný účel extrakce textu ze souborů PDF můžete také použít grafický nástroj jako kalibr. Stojí za zmínku, že jak grafický nástroj, tak nástroj, který můžeme použít v terminálu, nemohou-li extrahovat text, pokud je PDF vytvořen z obrázků (fotografie, naskenované obrázky knih atd.).

Ve většině distribucí Gnu / Linux pdftotext je součástí balíčku poppler-utils. Tento nástroj je nástroj příkazového řádku, který převádět soubory PDF na prostý text. V něm najdeme mnoho dostupných možností, včetně možnosti určit rozsah stránek, které se mají převést, možnosti co nejlépe zachovat původní fyzické rozložení textu, nastavit konce řádků a dokonce pracovat se soubory PDF chráněnými heslem .

o odstranění známého hesla z PDF
Související článek:
Odstraňte známé heslo ze souboru PDF v Ubutu

Nainstalujte pdftotext na Ubuntu

Chcete-li tento nástroj nainstalovat do našeho systému Ubuntu, pokud jej ještě nemáte nainstalovaný, stačí otevřít terminál (Ctrl + Alt + T) a napsat do něj následující příkaz nainstalovat poppler-utils:

nainstalovat poppler utils

sudo apt install poppler-utils

Jak používat pdftotext

Převeďte soubor PDF na text

Jakmile máme balíček nainstalovaný v našem operačním systému, můžeme převést soubor PDF na prostý text. Umět zkuste zachovat původní design pomocí této možnosti - vypršení s příkazem, ale můžeme to zkusit i bez něj. V terminálu (Ctrl + Alt + T) by měl být následující příkaz:

pdftotext převádí pdf na prostý text

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

V předchozím příkazu bychom museli nahradit pdf-input.pdf s názvem souboru PDF, který máme zájem převést, a pdf-output.txt podle názvu souboru TXT, do kterého chceme uložit text vstupního souboru PDF. Pokud nezadáme žádný výstupní textový soubor, pdftotext automaticky pojmenuje soubor se stejným názvem jako původní soubor PDF, ale s příponou txt. Další věcí, kterou může být zajímavé přidat do příkazu, budou v případě potřeby cesty před názvy souborů (~ / Documents / pdf-input.pdf).

Převeďte na text pouze řadu stránek PDF

Pokud nemáme zájem převést celý soubor PDF a chceme zúžte rozsah stránek PDF, které chcete převést na text bude použijte volbu -f (první stránka k převodu) A -l (poslední stránka k převodu) následovaná každou z možností s číslem stránky. Příkaz, který se má použít, bude vypadat přibližně takto:

pdftotext -layout -f P -l U pdf-entrada.pdf

uložit v textovém formátu daný počet stránek pdf

V předchozím příkazu budete muset nahraďte písmena P a U čísly první a poslední stránky extrahovat. Jméno pdf-input.pdf Také to budeme muset změnit a dát mu název souboru PDF, se kterým chceme pracovat.

Použijte znaky na konci řádku

To budeme moci specifikovat pomocí -eol následovaného mac, dos nebo unix. Následující příkaz přidá konce řádků unixu:

pdftotext -layout -eol unix pdf-entrada.pdf

pomoci

na zkontrolujte dostupné možnosti, spusťte manuálovou stránku:

muž pdftotext

man pdftotext

Můžete také konzultujte možnost nápovědy s příkazem:

pomoc příkaz pdftotext

pdftotext --help

Převeďte soubory PDF ze složky pomocí smyčky Bash FOR

V případě, že chceme převést všechny soubory PDF ve složce na textové soubory, pdftotext nepodporuje dávkový převod z PDF na text. toto budeme to moci udělat pomocí smyčky Bash FOR v terminálu (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

na více informací o pdftotext, můžete se obrátit na webové stránky projektu. Pokud nechcete v terminálu psát příkazy, můžete také použít a online služby získat stejný výsledek.


Zanechte svůj komentář

Vaše e-mailová adresa nebude zveřejněna. Povinné položky jsou označeny *

*

*

  1. Odpovědný za údaje: Miguel Ángel Gatón
  2. Účel údajů: Ovládací SPAM, správa komentářů.
  3. Legitimace: Váš souhlas
  4. Sdělování údajů: Údaje nebudou sděleny třetím osobám, s výjimkou zákonných povinností.
  5. Úložiště dat: Databáze hostovaná společností Occentus Networks (EU)
  6. Práva: Vaše údaje můžete kdykoli omezit, obnovit a odstranit.

  1.   Moypher Nightkrelin řekl

    ano, dobře to funguje, ale někdy musím udělat OCR nebo použít Libre Office Draw.

    Kromě toho existuje mnoho editorů PDF. a zjevně k tomu nedochází k textovým obrázkům, takže to nepovažuji za praktické.

    A Libre Office Draw je intuitivní a praktické.