V příštím článku se podíváme na pdftotext. Toto je nástroj příkazového řádku s otevřeným zdrojovým kódem, který nám to umožní převádět soubory PDF na soubory prostého textu. V zásadě to, co dělá, je extrakce textových dat ze souborů PDF. Tento software je zdarma a je ve výchozím nastavení součástí mnoha distribucí Gnu / Linux.
V následujících řádcích uvidíme nástroj pro terminál, ale pro stejný účel extrakce textu ze souborů PDF můžete také použít grafický nástroj jako kalibr. Stojí za zmínku, že jak grafický nástroj, tak nástroj, který můžeme použít v terminálu, nemohou-li extrahovat text, pokud je PDF vytvořen z obrázků (fotografie, naskenované obrázky knih atd.).
Ve většině distribucí Gnu / Linux pdftotext je součástí balíčku poppler-utils. Tento nástroj je nástroj příkazového řádku, který převádět soubory PDF na prostý text. V něm najdeme mnoho dostupných možností, včetně možnosti určit rozsah stránek, které se mají převést, možnosti co nejlépe zachovat původní fyzické rozložení textu, nastavit konce řádků a dokonce pracovat se soubory PDF chráněnými heslem .
Nainstalujte pdftotext na Ubuntu
Chcete-li tento nástroj nainstalovat do našeho systému Ubuntu, pokud jej ještě nemáte nainstalovaný, stačí otevřít terminál (Ctrl + Alt + T) a napsat do něj následující příkaz nainstalovat poppler-utils:
sudo apt install poppler-utils
Jak používat pdftotext
Převeďte soubor PDF na text
Jakmile máme balíček nainstalovaný v našem operačním systému, můžeme převést soubor PDF na prostý text. Umět zkuste zachovat původní design pomocí této možnosti - vypršení s příkazem, ale můžeme to zkusit i bez něj. V terminálu (Ctrl + Alt + T) by měl být následující příkaz:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
V předchozím příkazu bychom museli nahradit pdf-input.pdf s názvem souboru PDF, který máme zájem převést, a pdf-output.txt podle názvu souboru TXT, do kterého chceme uložit text vstupního souboru PDF. Pokud nezadáme žádný výstupní textový soubor, pdftotext automaticky pojmenuje soubor se stejným názvem jako původní soubor PDF, ale s příponou txt. Další věcí, kterou může být zajímavé přidat do příkazu, budou v případě potřeby cesty před názvy souborů (~ / Documents / pdf-input.pdf).
Převeďte na text pouze řadu stránek PDF
Pokud nemáme zájem převést celý soubor PDF a chceme zúžte rozsah stránek PDF, které chcete převést na text bude použijte volbu -f (první stránka k převodu) A -l (poslední stránka k převodu) následovaná každou z možností s číslem stránky. Příkaz, který se má použít, bude vypadat přibližně takto:
pdftotext -layout -f P -l U pdf-entrada.pdf
V předchozím příkazu budete muset nahraďte písmena P a U čísly první a poslední stránky extrahovat. Jméno pdf-input.pdf Také to budeme muset změnit a dát mu název souboru PDF, se kterým chceme pracovat.
Použijte znaky na konci řádku
To budeme moci specifikovat pomocí -eol následovaného mac, dos nebo unix. Následující příkaz přidá konce řádků unixu:
pdftotext -layout -eol unix pdf-entrada.pdf
pomoci
na zkontrolujte dostupné možnosti, spusťte manuálovou stránku:
man pdftotext
Můžete také konzultujte možnost nápovědy s příkazem:
pdftotext --help
Převeďte soubory PDF ze složky pomocí smyčky Bash FOR
V případě, že chceme převést všechny soubory PDF ve složce na textové soubory, pdftotext nepodporuje dávkový převod z PDF na text. toto budeme to moci udělat pomocí smyčky Bash FOR v terminálu (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
na více informací o pdftotext, můžete se obrátit na webové stránky projektu. Pokud nechcete v terminálu psát příkazy, můžete také použít a online služby získat stejný výsledek.
ano, dobře to funguje, ale někdy musím udělat OCR nebo použít Libre Office Draw.
Kromě toho existuje mnoho editorů PDF. a zjevně k tomu nedochází k textovým obrázkům, takže to nepovažuji za praktické.
A Libre Office Draw je intuitivní a praktické.