Pdftotext, teisendage PDF terminalist tekstiks

pdftoteksti kohta

Järgmises artiklis heidame pilgu pdftotextile. See on avatud lähtekoodiga käsurea utiliit, mis võimaldab meil seda teha teisendada PDF-failid lihttekstifailideks. Põhimõtteliselt võtab see tekstiandmed välja PDF-failidest. See tarkvara on tasuta ja sisaldub vaikimisi paljudes Gnu / Linuxi distributsioonides.

Järgmistel ridadel näeme terminali tööriista, kuid samal eesmärgil teksti PDF-failidest väljavõtmiseks võite kasutada ka sellist graafilist tööriista nagu kaliiber. Väärib märkimist, et nii graafiline tööriist kui ka see, mida saame terminalis kasutada, nad ei saa teksti välja tõmmata, kui PDF on tehtud piltidest (fotod, skannitud raamatupildid jne.).

Enamikul Gnu / Linuxi distributsioonidest pdftotext on paketi poppler-utils osana. See tööriist on käsurea utiliit, mis teisendada PDF-failid lihttekstiks. Selles leiame palju saadaolevaid võimalusi, sealhulgas võime täpsustada teisendatavate lehtede vahemikku, võime säilitada võimalikult hästi teksti algset füüsilist paigutust, määrata rea ​​lõppe ja töötada isegi parooliga kaitstud PDF-failidega .

umbes teadaoleva parooli eemaldamine pdf-ist
Seotud artikkel:
Eemaldage Ubutu PDF-failist teadaolev parool

Installige pdftotext Ubuntu

Selle tööriista installimiseks meie Ubuntu süsteemi, kui te pole seda veel installinud, peate lihtsalt avama terminali (Ctrl + Alt + T) ja kirjutama sinna järgmise käsu installige poppler-utils:

installige poppleri utiliidid

sudo apt install poppler-utils

Kuidas pdftoteksti kasutada

Teisendage PDF-fail tekstiks

Kui pakett on meie operatsioonisüsteemi installitud, saame teisendada PDF-faili lihttekstiks. Saab proovige valikut kasutades originaalset kujundust säilitada - paigutus käsuga, kuid võime proovida ka ilma selleta. Terminalis (Ctrl + Alt + T) kasutatav käsk on järgmine:

pdftotext teisendab pdf-i lihttekstiks

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Eelmises käsus peaksime asendama pdf-sisend.pdf koos PDF-faili nimega, mille teisendamisest oleme huvitatud, ja pdf-output.txt TXT-faili nime järgi, kuhu soovime sisestatud PDF-faili teksti salvestada. Kui me ei määra ühtegi väljundtekstifaili, nimetab pdftotext faili automaatselt sama nimega nagu algne PDF-fail, kuid laiendiga txt. Teine asi, mida võib olla huvitav käsule lisada, on vajadusel failinimede ees olevad teed (~ / Dokumendid / pdf-input.pdf).

Teisendage tekstiks ainult vahemik PDF-lehekülgi

Kui me pole huvitatud kogu PDF-faili teisendamisest, siis me tahame tekstiks teisendamiseks kitsendage PDF-lehtede valikut tuleb kasuta valikut -f (esimene teisendatav leht) Ja -l (viimane teisendatav leht), millele järgneb iga suvand koos lehenumbriga. Kasutatav käsk oleks umbes järgmine:

pdftotext -layout -f P -l U pdf-entrada.pdf

salvestage tekstivormingus PDF-i kindel arv lehti

Eelmises käsus peate seda tegema asendage tähed P ja U esimese ja viimase leheküljenumbriga väljavõtmiseks. Nimi pdf-sisend.pdf Samuti peame seda muutma ja andma selle PDF-faili nime, millega soovime töötada.

Kasutage rea lõpu märke

Seda saame täpsustada kasutades -eol, millele järgneb mac, dos või unix. Järgmine käsk lisab unix-i rea lõpud:

pdftotext -layout -eol unix pdf-entrada.pdf

Aitama

et kontrollige saadaolevaid valikuid, käivitage man-leht:

mees pdftotekst

man pdftotext

Võite ka seda teha pöörduge abivaliku poole käsuga:

abikäsk pdftotext

pdftotext --help

Teisendage kaustast PDF-failid silmus Bash FOR abil

Kui tahame kõik kaustas olevad PDF-failid teisendada tekstifailideks, pdftotext ei toeta pakkide teisendamist PDF-ist tekstiks. See saame seda teha silmus Bash FOR abil terminalis (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

et lisateavet pdftoteksti kohta, saate tutvuda projekti veebisait. Juhul, kui te ei soovi terminalis käske sisestada, saate seda ka teha kasutage a võrguteenus sama tulemuse saamiseks.


Jäta oma kommentaar

Sinu e-postiaadressi ei avaldata. Kohustuslikud väljad on tähistatud *

*

*

  1. Andmete eest vastutab: Miguel Ángel Gatón
  2. Andmete eesmärk: Rämpsposti kontrollimine, kommentaaride haldamine.
  3. Seadustamine: teie nõusolek
  4. Andmete edastamine: andmeid ei edastata kolmandatele isikutele, välja arvatud juriidilise kohustuse alusel.
  5. Andmete salvestamine: andmebaas, mida haldab Occentus Networks (EL)
  6. Õigused: igal ajal saate oma teavet piirata, taastada ja kustutada.

  1.   Moypher Nightkrelin DIJO

    jah, hästi see töötab, kuid mõnikord pean tegema OCR-i või kasutama Libre Office Draw'i.

    Lisaks on palju pdf-i toimetajaid. ja seda piltide tekstiga ilmselt ei juhtu, nii et ma ei näe seda otstarbekana.

    Ja Libre Office Draw on intuitiivne ja praktiline.