V naslednjem članku si bomo ogledali pdftotext. To je odprtokodni pripomoček za ukazno vrstico, ki nam bo to omogočil pretvori datoteke PDF v navadne besedilne datoteke. V bistvu izvleče besedilne podatke iz datotek PDF. Ta programska oprema je brezplačna in je privzeto vključena v številne distribucije Gnu / Linux.
V naslednjih vrsticah si bomo ogledali orodje za terminal, vendar z istim namenom pridobivanja besedila iz datotek PDF lahko uporabite tudi grafično orodje, kot je kaliber. Omeniti velja, da tako grafično orodje kot tisto, ki ga lahko uporabimo v terminalu, besedila ne morejo izvleči, če je PDF sestavljen iz slik (fotografije, optično prebrane slike knjig itd.).
V večini distribucij Gnu / Linux, pdftotext je vključen kot del paketa poppler-utils. To orodje je pripomoček ukazne vrstice, ki pretvori datoteke PDF v navadno besedilo. V njem bomo našli številne možnosti, vključno z možnostjo določanja obsega strani za pretvorbo, zmožnosti čim boljšega ohranjanja prvotne fizične postavitve besedila, nastavitve končnic vrstic in celo dela z datotekami PDF, zaščitenimi z geslom .
Namestite pdftotext v Ubuntu
Če želite to orodje namestiti v naš sistem Ubuntu, morate v primeru, da ga še niste namestiti, odpreti terminal (Ctrl + Alt + T) in vanj zapisati naslednji ukaz v namestite poppler-utils:
sudo apt install poppler-utils
Kako uporabljati pdftotext
Pretvorite datoteko PDF v besedilo
Ko imamo paket nameščen v našem operacijskem sistemu, lahko datoteko PDF pretvorimo v navadno besedilo. Lahko poskusite obdržati prvotni dizajn z uporabo možnosti -razporeditev z ukazom, lahko pa tudi brez njega. V terminalu (Ctrl + Alt + T) bi bil naslednji ukaz naslednji:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
V prejšnjem ukazu bi morali zamenjati pdf-input.pdf z imenom datoteke PDF, ki jo želimo pretvoriti, in pdf-output.txt z imenom datoteke TXT, v katero želimo shraniti besedilo vhodne datoteke PDF. Če ne določimo nobene izhodne besedilne datoteke, bo pdftotext datoteko samodejno poimenoval z istim imenom kot izvirna datoteka PDF, vendar s pripono txt. Še ena stvar, ki jo je lahko zanimivo dodati ukazu, bodo poti pred imeni datotek, če je potrebno (~ / Documents / pdf-input.pdf).
Pretvorite v besedilo samo vrsto strani PDF
Če nas konverzija celotne datoteke PDF ne zanima in želimo zožite vrsto strani PDF za pretvorbo v besedilo bo uporabite možnost -f (prva stran za pretvorbo) In -l (zadnja stran za pretvorbo), čemur sledi vsaka možnost s številko strani. Ukaz za uporabo bi bil približno takšen:
pdftotext -layout -f P -l U pdf-entrada.pdf
V prejšnjem ukazu boste morali črki P in U nadomestite s prvo in zadnjo številko strani izvleči. Ime pdf-input.pdf Prav tako ga bomo morali spremeniti in mu dati ime datoteke PDF, s katero želimo delati.
Uporabite znake za vrstico
To bomo lahko določili z uporabo -eol, ki mu sledi mac, dos ali unix. Naslednji ukaz bo dodal končnice vrstic unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Pomaga
za preverite razpoložljive možnosti, zaženite man stran:
man pdftotext
Lahko tudi glejte možnost pomoči z ukazom:
pdftotext --help
Pretvorite datoteke PDF iz mape z uporabo zanke Bash FOR
Če želimo pretvoriti vse datoteke PDF v mapi v besedilne datoteke, pdftotext ne podpira paketne pretvorbe iz PDF v besedilo. To to bomo lahko storili z uporabo zanke Bash FOR v terminalu (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
za več informacij o pdftotext, se lahko obrnete na spletna stran projekta. Če vam v terminalu ni treba vnašati ukazov, lahko tudi uporabi a storitev da dobimo enak rezultat.
ja, dobro deluje, ampak včasih moram narediti OCR ali uporabiti Libre Office Draw.
Poleg tega obstaja veliko pdf urejevalnikov. in očitno se to ne zgodi pri besedilih slik, zato se mi ne zdi praktično.
In Libre Office Draw je intuitiven in praktičen.