V nasledujúcom článku sa pozrieme na pdftotext. Toto je nástroj príkazového riadku otvoreného zdroja, ktorý nám to umožní prevádzať súbory PDF na súbory obyčajného textu. V zásade to, čo robí, je extrakcia textových údajov zo súborov PDF. Tento softvér je zadarmo a je predvolene zahrnutý v mnohých distribúciách Gnu / Linux.
V nasledujúcich riadkoch uvidíme nástroj pre terminál, ale na rovnaký účel extrakcie textu zo súborov PDF môžete tiež použiť grafický nástroj ako kaliber. Stojí za zmienku, že ako grafický nástroj, tak aj nástroj, ktorý môžeme použiť v termináli, nedokážu extrahovať text, ak je PDF vytvorený z obrázkov (fotografie, naskenované obrázky kníh atď.).
Vo väčšine distribúcií Gnu / Linux pdftotext je súčasťou balíka poppler-utils. Tento nástroj je nástroj príkazového riadku, ktorý prevádzať súbory PDF na obyčajný text. V ňom nájdeme veľa dostupných možností, vrátane možnosti určiť rozsah stránok, ktoré sa majú prevádzať, schopnosti čo najlepšie zachovať pôvodné fyzické rozloženie textu, nastaviť konce riadkov, či dokonca pracovať s heslom chránenými súbormi PDF. .
Nainštalujte si pdftotext na Ubuntu
Ak chcete tento nástroj nainštalovať do nášho systému Ubuntu, ak ho ešte nemáte nainštalovaný, musíte otvoriť terminál (Ctrl + Alt + T) a napísať doň nasledujúci príkaz: nainštalujte poppler-utils:
sudo apt install poppler-utils
Ako používať pdftotext
Preveďte súbor PDF na text
Keď máme balíček nainštalovaný v našom operačnom systéme, môžeme previesť súbor PDF na obyčajný text. Môcť pokúste sa zachovať pôvodný dizajn pomocou možnosti - oneskorenie príkazom, ale môžeme to skúsiť aj bez neho. V termináli (Ctrl + Alt + T) by sa mal použiť nasledujúci príkaz:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
V predchádzajúcom príkaze by sme museli nahradiť pdf-vstup.pdf s názvom súboru PDF, ktorý chceme previesť, a pdf-output.txt názvom súboru TXT, do ktorého chceme uložiť text vstupného súboru PDF. Ak nezadáme žiadny výstupný textový súbor, program pdftotext automaticky pomenuje súbor s rovnakým názvom ako pôvodný súbor PDF, ale s príponou txt. Ďalšou vecou, ktorú môže byť zaujímavé pridať do príkazu, budú v prípade potreby cesty pred názvami súborov (~ / Documents / pdf-input.pdf).
Na text preveďte iba rozsah stránok PDF
Ak nemáme záujem previesť celý súbor PDF a chceme zúžiť rozsah stránok PDF, ktoré chcete previesť na text tam bude použite voľbu -f (prvá stránka na konverziu) A -l (posledná stránka na prevod), za ktorým nasleduje každá z možností s číslom stránky. Príkaz, ktorý sa má použiť, bude vyzerať asi takto:
pdftotext -layout -f P -l U pdf-entrada.pdf
V predchádzajúcom príkaze budete musieť nahraďte písmená P a U číslom prvej a poslednej strany extrahovať. Meno pdf-vstup.pdf Budeme to musieť tiež zmeniť a dať mu názov súboru PDF, s ktorým chceme pracovať.
Používajte znaky na konci riadku
Toto budeme môcť špecifikovať pomocou -eol nasledovaného mac, dos alebo unix. Nasledujúci príkaz pridá konce riadkov unixu:
pdftotext -layout -eol unix pdf-entrada.pdf
Pomoc
na skontrolujte dostupné možnosti, spustite manuálovú stránku:
man pdftotext
Môžete tiež obráťte sa na možnosť pomoci príkazom:
pdftotext --help
Prevod súborov PDF z priečinka pomocou slučky Bash FOR
V prípade, že chceme previesť všetky súbory PDF v priečinku na textové súbory, pdftotext nepodporuje dávkovú konverziu z PDF na text. toto to dokážeme pomocou slučky Bash FOR v termináli (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
na viac informácií o pdftotext, môžete sa obrátiť na webová stránka projektu. Ak nechcete, aby ste do terminálu museli zadávať príkazy, môžete tiež použiť a online služba dosiahnuť rovnaký výsledok.
áno, dobre to funguje, ale niekedy musím urobiť OCR alebo použiť Libre Office Draw.
Okrem toho existuje veľa editorov PDF. a zjavne sa to nestane pri textových obrázkoch, takže mi to nepríde praktické.
A Libre Office Draw je intuitívny a praktický.