Järgmises artiklis heidame pilgu pdftotextile. See on avatud lähtekoodiga käsurea utiliit, mis võimaldab meil seda teha teisendada PDF-failid lihttekstifailideks. Põhimõtteliselt võtab see tekstiandmed välja PDF-failidest. See tarkvara on tasuta ja sisaldub vaikimisi paljudes Gnu / Linuxi distributsioonides.
Järgmistel ridadel näeme terminali tööriista, kuid samal eesmärgil teksti PDF-failidest väljavõtmiseks võite kasutada ka sellist graafilist tööriista nagu kaliiber. Väärib märkimist, et nii graafiline tööriist kui ka see, mida saame terminalis kasutada, nad ei saa teksti välja tõmmata, kui PDF on tehtud piltidest (fotod, skannitud raamatupildid jne.).
Enamikul Gnu / Linuxi distributsioonidest pdftotext on paketi poppler-utils osana. See tööriist on käsurea utiliit, mis teisendada PDF-failid lihttekstiks. Selles leiame palju saadaolevaid võimalusi, sealhulgas võime täpsustada teisendatavate lehtede vahemikku, võime säilitada võimalikult hästi teksti algset füüsilist paigutust, määrata rea lõppe ja töötada isegi parooliga kaitstud PDF-failidega .
Installige pdftotext Ubuntu
Selle tööriista installimiseks meie Ubuntu süsteemi, kui te pole seda veel installinud, peate lihtsalt avama terminali (Ctrl + Alt + T) ja kirjutama sinna järgmise käsu installige poppler-utils:
sudo apt install poppler-utils
Kuidas pdftoteksti kasutada
Teisendage PDF-fail tekstiks
Kui pakett on meie operatsioonisüsteemi installitud, saame teisendada PDF-faili lihttekstiks. Saab proovige valikut kasutades originaalset kujundust säilitada - paigutus käsuga, kuid võime proovida ka ilma selleta. Terminalis (Ctrl + Alt + T) kasutatav käsk on järgmine:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Eelmises käsus peaksime asendama pdf-sisend.pdf koos PDF-faili nimega, mille teisendamisest oleme huvitatud, ja pdf-output.txt TXT-faili nime järgi, kuhu soovime sisestatud PDF-faili teksti salvestada. Kui me ei määra ühtegi väljundtekstifaili, nimetab pdftotext faili automaatselt sama nimega nagu algne PDF-fail, kuid laiendiga txt. Teine asi, mida võib olla huvitav käsule lisada, on vajadusel failinimede ees olevad teed (~ / Dokumendid / pdf-input.pdf).
Teisendage tekstiks ainult vahemik PDF-lehekülgi
Kui me pole huvitatud kogu PDF-faili teisendamisest, siis me tahame tekstiks teisendamiseks kitsendage PDF-lehtede valikut tuleb kasuta valikut -f (esimene teisendatav leht) Ja -l (viimane teisendatav leht), millele järgneb iga suvand koos lehenumbriga. Kasutatav käsk oleks umbes järgmine:
pdftotext -layout -f P -l U pdf-entrada.pdf
Eelmises käsus peate seda tegema asendage tähed P ja U esimese ja viimase leheküljenumbriga väljavõtmiseks. Nimi pdf-sisend.pdf Samuti peame seda muutma ja andma selle PDF-faili nime, millega soovime töötada.
Kasutage rea lõpu märke
Seda saame täpsustada kasutades -eol, millele järgneb mac, dos või unix. Järgmine käsk lisab unix-i rea lõpud:
pdftotext -layout -eol unix pdf-entrada.pdf
Aitama
et kontrollige saadaolevaid valikuid, käivitage man-leht:
man pdftotext
Võite ka seda teha pöörduge abivaliku poole käsuga:
pdftotext --help
Teisendage kaustast PDF-failid silmus Bash FOR abil
Kui tahame kõik kaustas olevad PDF-failid teisendada tekstifailideks, pdftotext ei toeta pakkide teisendamist PDF-ist tekstiks. See saame seda teha silmus Bash FOR abil terminalis (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
et lisateavet pdftoteksti kohta, saate tutvuda projekti veebisait. Juhul, kui te ei soovi terminalis käske sisestada, saate seda ka teha kasutage a võrguteenus sama tulemuse saamiseks.
jah, hästi see töötab, kuid mõnikord pean tegema OCR-i või kasutama Libre Office Draw'i.
Lisaks on palju pdf-i toimetajaid. ja seda piltide tekstiga ilmselt ei juhtu, nii et ma ei näe seda otstarbekana.
Ja Libre Office Draw on intuitiivne ja praktiline.