Pdftotext, konvertējiet PDF failu uz tekstu no termināla

par pdftotekstu

Nākamajā rakstā mēs aplūkosim pdftotext. Šī ir atvērtā koda komandrindas lietderība, kas mums to ļaus konvertēt PDF failus vienkārša teksta failos. Būtībā tas tiek iegūts no PDF failiem. Šī programmatūra ir bezmaksas un pēc noklusējuma ir iekļauta daudzos Gnu / Linux izplatījumos.

Nākamajās rindās mēs redzēsim termināla rīku, bet tam pašam nolūkam teksta iegūšanai no PDF failiem varat izmantot arī tādu grafisko rīku kā Kalibrs. Ir vērts atzīmēt, ka gan grafiskais rīks, gan tas, ko mēs varam izmantot terminālā, viņi nevar izvilkt tekstu, ja PDF ir veidots no attēliem (fotogrāfijas, skenēti grāmatu attēli utt.).

Lielākajā daļā Gnu / Linux izplatīšanas gadījumu pdftotext ir iekļauts kā daļa no paketes poppler-utils. Šis rīks ir komandrindas lietderība, kas konvertēt PDF failus vienkāršā tekstā. Tajā mēs atradīsim daudzas pieejamās iespējas, tostarp iespēju norādīt konvertējamo lapu diapazonu, iespēju pēc iespējas labāk saglabāt sākotnējo fizisko teksta izkārtojumu, iestatīt rindu beigas un pat strādāt ar PDF failiem, kas aizsargāti ar paroli. .

par zināmas paroles noņemšanu no pdf
saistīto rakstu:
Noņemiet zināmo paroli no PDF faila Ubutu

Instalējiet pdftotext Ubuntu

Lai instalētu šo rīku mūsu Ubuntu sistēmā, ja jums tas vēl nav instalēts, jums vienkārši jāatver termināls (Ctrl + Alt + T) un tajā jāieraksta šāda komanda: instalējiet poppler-utils:

instalēt poppler utils

sudo apt install poppler-utils

Kā lietot pdftotext

Konvertējiet PDF failu uz tekstu

Kad mūsu operētājsistēmā ir instalēta pakotne, mēs varam pārveidot PDF failu par vienkāršu tekstu. Var mēģiniet saglabāt sākotnējo dizainu, izmantojot opciju izkārtojums ar komandu, bet mēs varam mēģināt arī bez tās. Terminālā (Ctrl + Alt + T) jāizmanto šāda komanda:

pdftotext konvertēt pdf uz vienkāršu tekstu

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Iepriekšējā komandā mums būtu jāaizstāj pdf-input.pdf ar PDF faila nosaukumu, kuru mēs esam ieinteresēti pārveidot, un pdf-output.txt pēc TXT faila nosaukuma, kurā mēs vēlamies saglabāt ievades PDF faila tekstu. Ja mēs nenorādīsim nevienu izvades teksta failu, pdftotext automātiski nosauks failu ar tādu pašu nosaukumu kā sākotnējais PDF fails, bet ar txt paplašinājumu. Vēl viena lieta, ko var būt interesanti pievienot komandai, būs ceļi pirms failu nosaukumiem, ja nepieciešams (~ / Dokumenti / pdf-input.pdf).

Pārvērst par tekstu tikai PDF lapu diapazonu

Ja mēs neesam ieinteresēti pārveidot visu PDF failu, un mēs to vēlamies sašauriniet PDF lapu diapazonu, lai pārveidotu tos par tekstu tur būs izmantot opciju -f (pirmā konvertējamā lapa) Un -l (pēdējā konvertējamā lapa), kam seko katra no opcijām ar lappuses numuru. Izmantojamā komanda būtu apmēram šāda:

pdftotext -layout -f P -l U pdf-entrada.pdf

saglabājiet teksta formātā noteiktu PDF lappušu skaitu

Iepriekšējā komandā jums tas būs jādara aizstājiet burtus P un U ar pirmās un pēdējās lappuses numuriem iegūt. Nosaukums pdf-input.pdf Mums tas arī būs jāmaina un jāpiešķir tā PDF faila nosaukums, ar kuru mēs vēlamies strādāt.

Izmantojiet rindas beigu rakstzīmes

To mēs varēsim precizēt izmantojot -eol, kam seko mac, dos vai unix. Ar šo komandu tiks pievienoti unix rindu beigas:

pdftotext -layout -eol unix pdf-entrada.pdf

Palīdzēt

līdz pārbaudiet pieejamās opcijas, palaist rokasgrāmatu:

cilvēks pdftoteksts

man pdftotext

Jūs varat arī konsultējieties ar palīdzības iespēju ar komandu:

palīdzēt komandu pdftotext

pdftotext --help

Konvertējiet PDF failus no mapes, izmantojot cilni Bash FOR

Ja mēs vēlamies visus mapē esošos PDF failus pārveidot par teksta failiem, pdftotext neatbalsta partijas pārveidošanu no PDF uz tekstu. Šis mēs to varēsim izdarīt, izmantojot Bash FOR cilpu terminālā (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

līdz vairāk informācijas par pdftotext, varat iepazīties ar projekta vietne. Gadījumā, ja vēlaties, lai terminālī nebūtu jāievada komandas, varat arī to izdarīt izmantot a tiešsaistes pakalpojums lai iegūtu tādu pašu rezultātu.


Atstājiet savu komentāru

Jūsu e-pasta adrese netiks publicēta. Obligātie lauki ir atzīmēti ar *

*

*

  1. Atbildīgais par datiem: Migels Ángels Gatóns
  2. Datu mērķis: SPAM kontrole, komentāru pārvaldība.
  3. Legitimācija: jūsu piekrišana
  4. Datu paziņošana: Dati netiks paziņoti trešām personām, izņemot juridiskus pienākumus.
  5. Datu glabāšana: datu bāze, ko mitina Occentus Networks (ES)
  6. Tiesības: jebkurā laikā varat ierobežot, atjaunot un dzēst savu informāciju.

  1.   Moifers Naktkrelins teica

    jā, labi, ka tas darbojas, bet dažreiz man ir jādara OCR vai jāizmanto Libre Office Draw.

    Turklāt ir daudz pdf redaktoru. un acīmredzot tas nenotiek ar tekstu attēliem, tāpēc es to neuzskatu par praktisku.

    Un Libre Office Draw ir intuitīvs un praktisks.