Pdftotext, teisendage PDF terminalist tekstiks

Järgmises artiklis heidame pilgu pdftotextile. See on avatud lähtekoodiga käsurea utiliit, mis võimaldab meil seda teha teisendada PDF-failid lihttekstifailideks. Põhimõtteliselt võtab see tekstiandmed välja PDF-failidest. See tarkvara on tasuta ja sisaldub vaikimisi paljudes Gnu / Linuxi distributsioonides.

Järgmistel ridadel näeme terminali tööriista, kuid samal eesmärgil teksti PDF-failidest väljavõtmiseks võite kasutada ka sellist graafilist tööriista nagu kaliiber. Väärib märkimist, et nii graafiline tööriist kui ka see, mida saame terminalis kasutada, nad ei saa teksti välja tõmmata, kui PDF on tehtud piltidest (fotod, skannitud raamatupildid jne.).

Enamikul Gnu / Linuxi distributsioonidest pdftotext on paketi poppler-utils osana. See tööriist on käsurea utiliit, mis teisendada PDF-failid lihttekstiks. Selles leiame palju saadaolevaid võimalusi, sealhulgas võime täpsustada teisendatavate lehtede vahemikku, võime säilitada võimalikult hästi teksti algset füüsilist paigutust, määrata rea lõppe ja töötada isegi parooliga kaitstud PDF-failidega .

umbes teadaoleva parooli eemaldamine pdf-ist

about quitar una contraseña conocida de un pdf

Seotud artikkel:

Eemaldage Ubutu PDF-failist teadaolev parool

Installige pdftotext Ubuntu

Selle tööriista installimiseks meie Ubuntu süsteemi, kui te pole seda veel installinud, peate lihtsalt avama terminali (Ctrl + Alt + T) ja kirjutama sinna järgmise käsu installige poppler-utils:

sudo apt install poppler-utils

Kuidas pdftoteksti kasutada

Teisendage PDF-fail tekstiks

Kui pakett on meie operatsioonisüsteemi installitud, saame teisendada PDF-faili lihttekstiks. Saab proovige valikut kasutades originaalset kujundust säilitada - paigutus käsuga, kuid võime proovida ka ilma selleta. Terminalis (Ctrl + Alt + T) kasutatav käsk on järgmine:

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Eelmises käsus peaksime asendama pdf-sisend.pdf koos PDF-faili nimega, mille teisendamisest oleme huvitatud, ja pdf-output.txt TXT-faili nime järgi, kuhu soovime sisestatud PDF-faili teksti salvestada. Kui me ei määra ühtegi väljundtekstifaili, nimetab pdftotext faili automaatselt sama nimega nagu algne PDF-fail, kuid laiendiga txt. Teine asi, mida võib olla huvitav käsule lisada, on vajadusel failinimede ees olevad teed (~ / Dokumendid / pdf-input.pdf).

Teisendage tekstiks ainult vahemik PDF-lehekülgi

Kui me pole huvitatud kogu PDF-faili teisendamisest, siis me tahame tekstiks teisendamiseks kitsendage PDF-lehtede valikut tuleb kasuta valikut -f (esimene teisendatav leht) Ja -l (viimane teisendatav leht), millele järgneb iga suvand koos lehenumbriga. Kasutatav käsk oleks umbes järgmine:

pdftotext -layout -f P -l U pdf-entrada.pdf

Eelmises käsus peate seda tegema asendage tähed P ja U esimese ja viimase leheküljenumbriga väljavõtmiseks. Nimi pdf-sisend.pdf Samuti peame seda muutma ja andma selle PDF-faili nime, millega soovime töötada.

Kasutage rea lõpu märke

Seda saame täpsustada kasutades -eol, millele järgneb mac, dos või unix. Järgmine käsk lisab unix-i rea lõpud:

pdftotext -layout -eol unix pdf-entrada.pdf

Aitama

et kontrollige saadaolevaid valikuid, käivitage man-leht:

man pdftotext

Võite ka seda teha pöörduge abivaliku poole käsuga:

pdftotext --help

Teisendage kaustast PDF-failid silmus Bash FOR abil

Kui tahame kõik kaustas olevad PDF-failid teisendada tekstifailideks, pdftotext ei toeta pakkide teisendamist PDF-ist tekstiks. See saame seda teha silmus Bash FOR abil terminalis (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

et lisateavet pdftoteksti kohta, saate tutvuda projekti veebisait. Juhul, kui te ei soovi terminalis käske sisestada, saate seda ka teha kasutage a võrguteenus sama tulemuse saamiseks.

Jäta oma kommentaar Tühista vastus

Moypher Nightkrelin DIJO
tagasi 5 aastat

jah, hästi see töötab, kuid mõnikord pean tegema OCR-i või kasutama Libre Office Draw'i.

Lisaks on palju pdf-i toimetajaid. ja seda piltide tekstiga ilmselt ei juhtu, nii et ma ei näe seda otstarbekana.

Ja Libre Office Draw on intuitiivne ja praktiline.

Vasta Moypher Nigthkrelinile