Pdftotext, shndërroni një PDF në tekst nga terminali

rreth pdftotext

Në artikullin vijues do të hedhim një vështrim në pdftotext. Ky është një mjet i burimit të hapur i linjës komanduese që do të na lejojë të shndërroni skedarët PDF në skedarë me tekst të thjeshtë. Në thelb ajo që bën është nxjerrja e të dhënave të tekstit nga skedarët PDF. Ky program është falas dhe përfshihet si parazgjedhje në shumë shpërndarje të Gnu / Linux.

Në linjat vijuese do të shohim një mjet për terminalin, por për të njëjtin qëllim të nxjerrjes së tekstit nga skedarët PDF mund të përdorni edhe një mjet grafik si kalibër. Vlen të përmendet se si mjeti grafik, ashtu edhe ai që mund të përdorim në terminal, ata nuk mund ta nxjerrin tekstin nëse PDF është bërë nga imazhe (fotografi, imazhe të skanuara të librave, etj.).

Në shumicën e shpërndarjeve të Gnu / Linux, pdftotext është përfshirë si pjesë e paketës poppler-utils. Ky mjet është një vegël e komandës që shndërroni skedarët PDF në tekst të thjeshtë. Në të do të gjejmë shumë opsione në dispozicion, duke përfshirë aftësinë për të specifikuar gamën e faqeve për t'u kthyer, aftësinë për të mbajtur paraqitjen fizike origjinale të tekstit sa më mirë që të jetë e mundur, të vendosni mbaresat e linjës dhe madje të punoni me skedarë PDF të mbrojtur me fjalëkalim .

në lidhje me heqjen e një fjalëkalimi të njohur nga një pdf
Artikulli i lidhur:
Hiqni një fjalëkalim të njohur nga një skedar PDF në Ubutu

Instaloni pdftotext në Ubuntu

Për ta instaluar këtë mjet në sistemin tonë Ubuntu, në rast se nuk e keni të instaluar, duhet të hapni një terminal (Ctrl + Alt + T) dhe të shkruani komandën e mëposhtme në të instaloni poppler-utils:

instaloni mjete poppler

sudo apt install poppler-utils

Si të përdorni pdftotext

Shndërroni një skedar PDF në tekst

Pasi të kemi instaluar paketën në sistemin tonë operativ, ne mund të konvertojmë një skedar PDF në tekst të thjeshtë. Mundet përpiquni të mbani modelin origjinal duke përdorur opsionin -vendosja me komandën, por mund të provojmë edhe pa të. Në një terminal (Ctrl + Alt + T) komanda për t'u përdorur do të ishte e mëposhtme:

pdftotext shndërroni pdf në tekst të thjeshtë

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Në komandën e mëparshme do të duhet të zëvendësojmë pdf-input.pdf me emrin e skedarit PDF që ne jemi të interesuar të konvertojmë, dhe pdf-dalje.txt me emrin e skedarit TXT në të cilin duam të ruajmë tekstin e skedarit PDF të hyrjes. Nëse nuk specifikojmë ndonjë skedar teksti dalës, pdftotext automatikisht do ta emërojë skedarin me të njëjtin emër si skedari origjinal PDF por me një shtrirje txt. Një tjetër gjë që mund të jetë interesante për t'i shtuar komandës do të jenë shtigjet para emrave të skedarëve nëse është e nevojshme (~ / Dokumentet / pdf-input.pdf).

Shndërroni vetëm një varg faqesh PDF në tekst

Nëse nuk jemi të interesuar të konvertojmë të gjithë skedarin PDF dhe ne duam ngushtoni një sërë faqesh PDF për t'u kthyer në tekst do të ketë përdor opsionin -f (faqja e parë për tu kthyer) Dhe -l (faqja e fundit për tu kthyer) e ndjekur nga secili opsion me numrin e faqes. Komanda për t'u përdorur do të ishte diçka si më poshtë:

pdftotext -layout -f P -l U pdf-entrada.pdf

ruani në formatin e tekstit një numër të caktuar faqesh të një pdf

Në komandën e mëparshme do t'ju duhet zëvendësoni shkronjat P dhe U me numrat e faqes së parë dhe të fundit për të nxjerrë. Emri i pdf-input.pdf Ne gjithashtu do të duhet ta ndryshojmë atë dhe t'i japim emrin e skedarit PDF me të cilin duam të punojmë.

Përdorni karaktere në fund të rreshtit

Këtë do të jemi në gjendje ta specifikojmë duke përdorur -eol të ndjekur nga mac, dos ose unix. Komanda e mëposhtme do të shtojë mbaresa të linjës unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Ndihmë

kontrolloni opsionet në dispozicion, ekzekutoni faqen e burrit:

njeri pdftotext

man pdftotext

Ju gjithashtu mundeni konsultohuni me opsionin e ndihmës me komandën:

komanda e ndihmës pdftotext

pdftotext --help

Shndërroni skedarët PDF nga një dosje duke përdorur një lak Bash FOR

Në rast se duam të shndërrojmë të gjithë skedarët PDF në një dosje në skedarë me tekst, pdftotext nuk mbështet shndërrimin në grupe nga PDF në tekst. Esto ne do të jemi në gjendje ta bëjmë atë duke përdorur një lak Bash FOR në terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

më shumë informacion në lidhje me pdftotext, ju mund të konsultoheni me faqja në internet e projektit. Në rast se nuk preferoni të shkruani komanda në terminal, gjithashtu mund të bëni perdor nje shërbim online për të marrë të njëjtin rezultat.


Lini komentin tuaj

Adresa juaj e emailit nuk do të publikohet. Fusha e kërkuar janë shënuar me *

*

*

  1. Përgjegjës për të dhënat: Miguel Ángel Gatón
  2. Qëllimi i të dhënave: Kontrolloni SPAM, menaxhimin e komenteve.
  3. Legjitimimi: Pëlqimi juaj
  4. Komunikimi i të dhënave: Të dhënat nuk do t'u komunikohen palëve të treta përveç me detyrim ligjor.
  5. Ruajtja e të dhënave: Baza e të dhënave e organizuar nga Occentus Networks (BE)
  6. Të drejtat: Në çdo kohë mund të kufizoni, rikuperoni dhe fshini informacionin tuaj.

  1.   Moypher Nightkrelin dijo

    po, mirë funksionon, por ndonjëherë më duhet të bëj OCR ose të përdor Libre Office Draw.

    Përveç kësaj ka shumë redaktorë të pdf. dhe me sa duket kjo nuk ndodh të dërgojë me imazhe në tekst, kështu që nuk e shoh praktike.

    Dhe Libre Office Draw është intuitiv dhe praktik.