Pdftotext, konvertáljon PDF-et szöveggé a terminálról

a pdftotextről

A következő cikkben a pdftotext-et vesszük szemügyre. Ez egy nyílt forráskódú parancssori segédprogram, amely lehetővé teszi számunkra konvertálja a PDF fájlokat egyszerű szöveges fájlokká. Alapvetően azt csinálja, hogy kivonja a szöveges adatokat a PDF fájlokból. Ez a szoftver ingyenes, és alapértelmezés szerint sok Gnu / Linux disztribúcióban szerepel.

A következő sorokban egy eszközt fogunk látni a terminál számára, de ugyanezzel a céllal a szöveg PDF fájlokból történő kinyerésére használhat olyan grafikus eszközt is, mint a kaliber. Érdemes megjegyezni, hogy mind a grafikus eszköz, mind az, amelyet a terminálban használhatunk, nem tudják kibontani a szöveget, ha a PDF képekből készül (fényképek, beolvasott könyvképek stb.).

A legtöbb Gnu / Linux disztribúción A pdftotext a poppler-utils csomag része. Ez az eszköz egy parancssori segédprogram, amely konvertálja a PDF fájlokat egyszerű szöveggé. Ebben számos rendelkezésre álló lehetőséget találunk, többek között az átalakítandó oldalak tartományának megadását, a szöveg eredeti fizikai elrendezésének lehető legjobb megtartását, a sorvégek beállítását, és még jelszóval védett PDF fájlokkal való munkát is .

Kapcsolódó cikk:
Távolítson el egy ismert jelszót egy PDF fájlból az Ubutu alkalmazásban

Telepítse a pdftotext fájlt az Ubuntura

Ennek az eszköznek az Ubuntu rendszerünkre történő telepítéséhez, ha még nincs telepítve, csak meg kell nyitnia egy terminált (Ctrl + Alt + T), és be kell írnia a következő parancsot: telepítse a poppler-utils alkalmazást:

telepítse a poppler utils alkalmazást

sudo apt install poppler-utils

A pdftotext használata

Konvertálja a PDF fájlt szöveggé

Miután telepítettük a csomagot az operációs rendszerünkre, konvertálhatunk egy PDF fájlt egyszerű szöveggé. Tud az opció használatával próbálja megtartani az eredeti dizájnt -elrendezés a paranccsal, de megpróbálhatunk anélkül is. A terminálban (Ctrl + Alt + T) a következő parancsot kell használni:

pdftotext konvertálja a pdf-t egyszerű szöveggé

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Az előző parancsban le kell cserélnie pdf-input.pdf a konvertálni kívánt PDF fájl nevével, és pdf-output.txt annak a TXT fájlnak a nevével, amelybe a bemenő PDF fájl szövegét el akarjuk menteni. Ha nem adunk meg kimeneti szövegfájlt, a pdftotext automatikusan elnevezi a fájlt az eredeti PDF fájl nevével, de txt kiterjesztéssel. Egy másik dolog, amit érdekes lehet hozzáadni a parancshoz, a fájlnevek előtti útvonalak lesznek, ha szükséges (~ / Dokumentumok / pdf-input.pdf).

Csak PDF-oldalak konvertálása szöveggé

Ha nem érdekel a teljes PDF fájl konvertálása, és szeretnénk szűkítse a PDF oldalak tartományát a szöveggé konvertáláshoz lesz használja az -f opciót (első konvertálandó oldal) És -l (utolsó konvertálandó oldal), amelyet az egyes opciók követnek az oldalszámmal. A használni kívánt parancs valami hasonló lehet:

pdftotext -layout -f P -l U pdf-entrada.pdf

mentse szöveges formátumban egy adott oldalszámú pdf-fájlt

Az előző parancsban meg kell cserélje ki a P és U betűket az első és az utolsó oldalszámokra kivonni. A neve pdf-input.pdf Meg kell változtatnunk és meg kell adnunk annak a PDF fájlnak a nevét is, amellyel dolgozni akarunk.

Használjon sorvégi karaktereket

Ezt meg tudjuk tudni határozni -eol, majd mac, dos vagy unix használatával. A következő parancs hozzáadja az unix sorvégződéseket:

pdftotext -layout -eol unix pdf-entrada.pdf

Segítség

hogy ellenőrizze a rendelkezésre álló lehetőségeket, futtassa a man oldalt:

ember pdftotext

man pdftotext

Ön is forduljon a súgó lehetőséghez a következő paranccsal:

súgó parancs pdftotext

pdftotext --help

Konvertáljon PDF fájlokat egy mappából egy Bash FOR ciklus segítségével

Ha egy mappában lévő összes PDF fájlt szöveges fájlokká akarjuk konvertálni, A pdftotext nem támogatja a kötegelt konvertálást PDF-ből szöveggé. ezt Bash FOR hurok segítségével képesek leszünk rá a terminálban (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

hogy további információ a pdftotext-ről, konzultálhat a projekt honlapja. Ha nem szeretné, hogy parancsokat kelljen begépelnie a terminálba, akkor azt is megteheti használja a online szolgáltatás hogy ugyanazt az eredményt érje el.


A cikk tartalma betartja a szerkesztői etika. A hiba bejelentéséhez kattintson a gombra itt.

Hozzászólás, hagyd a tiedet

Hagyja megjegyzését

E-mail címed nem kerül nyilvánosságra. Kötelező mezők vannak jelölve *

*

*

  1. Az adatokért felelős: Miguel Ángel Gatón
  2. Az adatok célja: A SPAM ellenőrzése, a megjegyzések kezelése.
  3. Legitimáció: Az Ön beleegyezése
  4. Az adatok közlése: Az adatokat csak jogi kötelezettség alapján továbbítjuk harmadik felekkel.
  5. Adattárolás: Az Occentus Networks (EU) által üzemeltetett adatbázis
  6. Jogok: Bármikor korlátozhatja, helyreállíthatja és törölheti adatait.

  1.   Moypher Nightkrelin dijo

    igen, jól működik, de néha OCR-t kell csinálnom, vagy a Libre Office Draw-t kell használnom.

    Ezen kívül sok pdf szerkesztő található. és nyilvánvalóan ez nem történik meg a képek szövegezésével, ezért nem látom praktikusnak.

    A Libre Office Draw pedig intuitív és praktikus.