Pdftotext, pretvorite PDF v besedilo s terminala

približno pdftotext

V naslednjem članku si bomo ogledali pdftotext. To je odprtokodni pripomoček za ukazno vrstico, ki nam bo to omogočil pretvori datoteke PDF v navadne besedilne datoteke. V bistvu izvleče besedilne podatke iz datotek PDF. Ta programska oprema je brezplačna in je privzeto vključena v številne distribucije Gnu / Linux.

V naslednjih vrsticah si bomo ogledali orodje za terminal, vendar z istim namenom pridobivanja besedila iz datotek PDF lahko uporabite tudi grafično orodje, kot je kaliber. Omeniti velja, da tako grafično orodje kot tisto, ki ga lahko uporabimo v terminalu, besedila ne morejo izvleči, če je PDF sestavljen iz slik (fotografije, optično prebrane slike knjig itd.).

V večini distribucij Gnu / Linux, pdftotext je vključen kot del paketa poppler-utils. To orodje je pripomoček ukazne vrstice, ki pretvori datoteke PDF v navadno besedilo. V njem bomo našli številne možnosti, vključno z možnostjo določanja obsega strani za pretvorbo, zmožnosti čim boljšega ohranjanja prvotne fizične postavitve besedila, nastavitve končnic vrstic in celo dela z datotekami PDF, zaščitenimi z geslom .

o odstranitvi znanega gesla iz datoteke pdf
Povezani članek:
Odstranite znano geslo iz datoteke PDF v Ubutu

Namestite pdftotext v Ubuntu

Če želite to orodje namestiti v naš sistem Ubuntu, morate v primeru, da ga še niste namestiti, odpreti terminal (Ctrl + Alt + T) in vanj zapisati naslednji ukaz v namestite poppler-utils:

namestite poppler

sudo apt install poppler-utils

Kako uporabljati pdftotext

Pretvorite datoteko PDF v besedilo

Ko imamo paket nameščen v našem operacijskem sistemu, lahko datoteko PDF pretvorimo v navadno besedilo. Lahko poskusite obdržati prvotni dizajn z uporabo možnosti -razporeditev z ukazom, lahko pa tudi brez njega. V terminalu (Ctrl + Alt + T) bi bil naslednji ukaz naslednji:

pdftotext pretvori pdf v navadno besedilo

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

V prejšnjem ukazu bi morali zamenjati pdf-input.pdf z imenom datoteke PDF, ki jo želimo pretvoriti, in pdf-output.txt z imenom datoteke TXT, v katero želimo shraniti besedilo vhodne datoteke PDF. Če ne določimo nobene izhodne besedilne datoteke, bo pdftotext datoteko samodejno poimenoval z istim imenom kot izvirna datoteka PDF, vendar s pripono txt. Še ena stvar, ki jo je lahko zanimivo dodati ukazu, bodo poti pred imeni datotek, če je potrebno (~ / Documents / pdf-input.pdf).

Pretvorite v besedilo samo vrsto strani PDF

Če nas konverzija celotne datoteke PDF ne zanima in želimo zožite vrsto strani PDF za pretvorbo v besedilo bo uporabite možnost -f (prva stran za pretvorbo) In -l (zadnja stran za pretvorbo), čemur sledi vsaka možnost s številko strani. Ukaz za uporabo bi bil približno takšen:

pdftotext -layout -f P -l U pdf-entrada.pdf

shranite v besedilni obliki določeno število strani pdf

V prejšnjem ukazu boste morali črki P in U nadomestite s prvo in zadnjo številko strani izvleči. Ime pdf-input.pdf Prav tako ga bomo morali spremeniti in mu dati ime datoteke PDF, s katero želimo delati.

Uporabite znake za vrstico

To bomo lahko določili z uporabo -eol, ki mu sledi mac, dos ali unix. Naslednji ukaz bo dodal končnice vrstic unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Pomaga

za preverite razpoložljive možnosti, zaženite man stran:

človek pdftotext

man pdftotext

Lahko tudi glejte možnost pomoči z ukazom:

ukaz za pomoč pdftotext

pdftotext --help

Pretvorite datoteke PDF iz mape z uporabo zanke Bash FOR

Če želimo pretvoriti vse datoteke PDF v mapi v besedilne datoteke, pdftotext ne podpira paketne pretvorbe iz PDF v besedilo. To to bomo lahko storili z uporabo zanke Bash FOR v terminalu (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

za več informacij o pdftotext, se lahko obrnete na spletna stran projekta. Če vam v terminalu ni treba vnašati ukazov, lahko tudi uporabi a storitev da dobimo enak rezultat.


Pustite svoj komentar

Vaš e-naslov ne bo objavljen. Obvezna polja so označena z *

*

*

  1. Za podatke odgovoren: Miguel Ángel Gatón
  2. Namen podatkov: Nadzor neželene pošte, upravljanje komentarjev.
  3. Legitimacija: Vaše soglasje
  4. Sporočanje podatkov: Podatki se ne bodo posredovali tretjim osebam, razen po zakonski obveznosti.
  5. Shranjevanje podatkov: Zbirka podatkov, ki jo gosti Occentus Networks (EU)
  6. Pravice: Kadar koli lahko omejite, obnovite in izbrišete svoje podatke.

  1.   Moypher Nightkrelin je dejal

    ja, dobro deluje, ampak včasih moram narediti OCR ali uporabiti Libre Office Draw.

    Poleg tega obstaja veliko pdf urejevalnikov. in očitno se to ne zgodi pri besedilih slik, zato se mi ne zdi praktično.

    In Libre Office Draw je intuitiven in praktičen.