A következő cikkben a pdftotext-et vesszük szemügyre. Ez egy nyílt forráskódú parancssori segédprogram, amely lehetővé teszi számunkra konvertálja a PDF fájlokat egyszerű szöveges fájlokká. Alapvetően azt csinálja, hogy kivonja a szöveges adatokat a PDF fájlokból. Ez a szoftver ingyenes, és alapértelmezés szerint sok Gnu / Linux disztribúcióban szerepel.
A következő sorokban egy eszközt fogunk látni a terminál számára, de ugyanezzel a céllal a szöveg PDF fájlokból történő kinyerésére használhat olyan grafikus eszközt is, mint a kaliber. Érdemes megjegyezni, hogy mind a grafikus eszköz, mind az, amelyet a terminálban használhatunk, nem tudják kibontani a szöveget, ha a PDF képekből készül (fényképek, beolvasott könyvképek stb.).
A legtöbb Gnu / Linux disztribúción A pdftotext a poppler-utils csomag része. Ez az eszköz egy parancssori segédprogram, amely konvertálja a PDF fájlokat egyszerű szöveggé. Ebben számos rendelkezésre álló lehetőséget találunk, többek között az átalakítandó oldalak tartományának megadását, a szöveg eredeti fizikai elrendezésének lehető legjobb megtartását, a sorvégek beállítását, és még jelszóval védett PDF fájlokkal való munkát is .
Telepítse a pdftotext fájlt az Ubuntura
Ennek az eszköznek az Ubuntu rendszerünkre történő telepítéséhez, ha még nincs telepítve, csak meg kell nyitnia egy terminált (Ctrl + Alt + T), és be kell írnia a következő parancsot: telepítse a poppler-utils alkalmazást:
sudo apt install poppler-utils
A pdftotext használata
Konvertálja a PDF fájlt szöveggé
Miután telepítettük a csomagot az operációs rendszerünkre, konvertálhatunk egy PDF fájlt egyszerű szöveggé. Tud az opció használatával próbálja megtartani az eredeti dizájnt -elrendezés a paranccsal, de megpróbálhatunk anélkül is. A terminálban (Ctrl + Alt + T) a következő parancsot kell használni:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Az előző parancsban le kell cserélnie pdf-input.pdf a konvertálni kívánt PDF fájl nevével, és pdf-output.txt annak a TXT fájlnak a nevével, amelybe a bemenő PDF fájl szövegét el akarjuk menteni. Ha nem adunk meg kimeneti szövegfájlt, a pdftotext automatikusan elnevezi a fájlt az eredeti PDF fájl nevével, de txt kiterjesztéssel. Egy másik dolog, amit érdekes lehet hozzáadni a parancshoz, a fájlnevek előtti útvonalak lesznek, ha szükséges (~ / Dokumentumok / pdf-input.pdf).
Csak PDF-oldalak konvertálása szöveggé
Ha nem érdekel a teljes PDF fájl konvertálása, és szeretnénk szűkítse a PDF oldalak tartományát a szöveggé konvertáláshoz lesz használja az -f opciót (első konvertálandó oldal) És -l (utolsó konvertálandó oldal), amelyet az egyes opciók követnek az oldalszámmal. A használni kívánt parancs valami hasonló lehet:
pdftotext -layout -f P -l U pdf-entrada.pdf
Az előző parancsban meg kell cserélje ki a P és U betűket az első és az utolsó oldalszámokra kivonni. A neve pdf-input.pdf Meg kell változtatnunk és meg kell adnunk annak a PDF fájlnak a nevét is, amellyel dolgozni akarunk.
Használjon sorvégi karaktereket
Ezt meg tudjuk tudni határozni -eol, majd mac, dos vagy unix használatával. A következő parancs hozzáadja az unix sorvégződéseket:
pdftotext -layout -eol unix pdf-entrada.pdf
Segítség
hogy ellenőrizze a rendelkezésre álló lehetőségeket, futtassa a man oldalt:
man pdftotext
Ön is forduljon a súgó lehetőséghez a következő paranccsal:
pdftotext --help
Konvertáljon PDF fájlokat egy mappából egy Bash FOR ciklus segítségével
Ha egy mappában lévő összes PDF fájlt szöveges fájlokká akarjuk konvertálni, A pdftotext nem támogatja a kötegelt konvertálást PDF-ből szöveggé. ezt Bash FOR hurok segítségével képesek leszünk rá a terminálban (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
hogy további információ a pdftotext-ről, konzultálhat a projekt honlapja. Ha nem szeretné, hogy parancsokat kelljen begépelnie a terminálba, akkor azt is megteheti használja a online szolgáltatás hogy ugyanazt az eredményt érje el.
igen, jól működik, de néha OCR-t kell csinálnom, vagy a Libre Office Draw-t kell használnom.
Ezen kívül sok pdf szerkesztő található. és nyilvánvalóan ez nem történik meg a képek szövegezésével, ezért nem látom praktikusnak.
A Libre Office Draw pedig intuitív és praktikus.