Pdftotext, konvertujte PDF na text z terminálu

o pdftotext

V nasledujúcom článku sa pozrieme na pdftotext. Toto je nástroj príkazového riadku otvoreného zdroja, ktorý nám to umožní prevádzať súbory PDF na súbory obyčajného textu. V zásade to, čo robí, je extrakcia textových údajov zo súborov PDF. Tento softvér je zadarmo a je predvolene zahrnutý v mnohých distribúciách Gnu / Linux.

V nasledujúcich riadkoch uvidíme nástroj pre terminál, ale na rovnaký účel extrakcie textu zo súborov PDF môžete tiež použiť grafický nástroj ako kaliber. Stojí za zmienku, že ako grafický nástroj, tak aj nástroj, ktorý môžeme použiť v termináli, nedokážu extrahovať text, ak je PDF vytvorený z obrázkov (fotografie, naskenované obrázky kníh atď.).

Vo väčšine distribúcií Gnu / Linux pdftotext je súčasťou balíka poppler-utils. Tento nástroj je nástroj príkazového riadku, ktorý prevádzať súbory PDF na obyčajný text. V ňom nájdeme veľa dostupných možností, vrátane možnosti určiť rozsah stránok, ktoré sa majú prevádzať, schopnosti čo najlepšie zachovať pôvodné fyzické rozloženie textu, nastaviť konce riadkov, či dokonca pracovať s heslom chránenými súbormi PDF. .

o odstránení známeho hesla z pdf
Súvisiaci článok:
Odstráňte známe heslo zo súboru PDF v Ubutu

Nainštalujte si pdftotext na Ubuntu

Ak chcete tento nástroj nainštalovať do nášho systému Ubuntu, ak ho ešte nemáte nainštalovaný, musíte otvoriť terminál (Ctrl + Alt + T) a napísať doň nasledujúci príkaz: nainštalujte poppler-utils:

nainštalujte si poppler utils

sudo apt install poppler-utils

Ako používať pdftotext

Preveďte súbor PDF na text

Keď máme balíček nainštalovaný v našom operačnom systéme, môžeme previesť súbor PDF na obyčajný text. Môcť pokúste sa zachovať pôvodný dizajn pomocou možnosti - oneskorenie príkazom, ale môžeme to skúsiť aj bez neho. V termináli (Ctrl + Alt + T) by sa mal použiť nasledujúci príkaz:

pdftotext previesť pdf na obyčajný text

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

V predchádzajúcom príkaze by sme museli nahradiť pdf-vstup.pdf s názvom súboru PDF, ktorý chceme previesť, a pdf-output.txt názvom súboru TXT, do ktorého chceme uložiť text vstupného súboru PDF. Ak nezadáme žiadny výstupný textový súbor, program pdftotext automaticky pomenuje súbor s rovnakým názvom ako pôvodný súbor PDF, ale s príponou txt. Ďalšou vecou, ​​ktorú môže byť zaujímavé pridať do príkazu, budú v prípade potreby cesty pred názvami súborov (~ / Documents / pdf-input.pdf).

Na text preveďte iba rozsah stránok PDF

Ak nemáme záujem previesť celý súbor PDF a chceme zúžiť rozsah stránok PDF, ktoré chcete previesť na text tam bude použite voľbu -f (prvá stránka na konverziu) A -l (posledná stránka na prevod), za ktorým nasleduje každá z možností s číslom stránky. Príkaz, ktorý sa má použiť, bude vyzerať asi takto:

pdftotext -layout -f P -l U pdf-entrada.pdf

uložiť v textovom formáte daný počet strán súboru pdf

V predchádzajúcom príkaze budete musieť nahraďte písmená P a U číslom prvej a poslednej strany extrahovať. Meno pdf-vstup.pdf Budeme to musieť tiež zmeniť a dať mu názov súboru PDF, s ktorým chceme pracovať.

Používajte znaky na konci riadku

Toto budeme môcť špecifikovať pomocou -eol nasledovaného mac, dos alebo unix. Nasledujúci príkaz pridá konce riadkov unixu:

pdftotext -layout -eol unix pdf-entrada.pdf

Pomoc

na skontrolujte dostupné možnosti, spustite manuálovú stránku:

muž pdftotext

man pdftotext

Môžete tiež obráťte sa na možnosť pomoci príkazom:

pomoc príkaz pdftotext

pdftotext --help

Prevod súborov PDF z priečinka pomocou slučky Bash FOR

V prípade, že chceme previesť všetky súbory PDF v priečinku na textové súbory, pdftotext nepodporuje dávkovú konverziu z PDF na text. toto to dokážeme pomocou slučky Bash FOR v termináli (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

na viac informácií o pdftotext, môžete sa obrátiť na webová stránka projektu. Ak nechcete, aby ste do terminálu museli zadávať príkazy, môžete tiež použiť a online služba dosiahnuť rovnaký výsledok.


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Zodpovedný za údaje: Miguel Ángel Gatón
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.

  1.   Moypher Nightkrelin dijo

    áno, dobre to funguje, ale niekedy musím urobiť OCR alebo použiť Libre Office Draw.

    Okrem toho existuje veľa editorov PDF. a zjavne sa to nestane pri textových obrázkoch, takže mi to nepríde praktické.

    A Libre Office Draw je intuitívny a praktický.