Në artikullin vijues do të hedhim një vështrim në pdftotext. Ky është një mjet i burimit të hapur i linjës komanduese që do të na lejojë të shndërroni skedarët PDF në skedarë me tekst të thjeshtë. Në thelb ajo që bën është nxjerrja e të dhënave të tekstit nga skedarët PDF. Ky program është falas dhe përfshihet si parazgjedhje në shumë shpërndarje të Gnu / Linux.
Në linjat vijuese do të shohim një mjet për terminalin, por për të njëjtin qëllim të nxjerrjes së tekstit nga skedarët PDF mund të përdorni edhe një mjet grafik si kalibër. Vlen të përmendet se si mjeti grafik, ashtu edhe ai që mund të përdorim në terminal, ata nuk mund ta nxjerrin tekstin nëse PDF është bërë nga imazhe (fotografi, imazhe të skanuara të librave, etj.).
Në shumicën e shpërndarjeve të Gnu / Linux, pdftotext është përfshirë si pjesë e paketës poppler-utils. Ky mjet është një vegël e komandës që shndërroni skedarët PDF në tekst të thjeshtë. Në të do të gjejmë shumë opsione në dispozicion, duke përfshirë aftësinë për të specifikuar gamën e faqeve për t'u kthyer, aftësinë për të mbajtur paraqitjen fizike origjinale të tekstit sa më mirë që të jetë e mundur, të vendosni mbaresat e linjës dhe madje të punoni me skedarë PDF të mbrojtur me fjalëkalim .
Instaloni pdftotext në Ubuntu
Për ta instaluar këtë mjet në sistemin tonë Ubuntu, në rast se nuk e keni të instaluar, duhet të hapni një terminal (Ctrl + Alt + T) dhe të shkruani komandën e mëposhtme në të instaloni poppler-utils:
sudo apt install poppler-utils
Si të përdorni pdftotext
Shndërroni një skedar PDF në tekst
Pasi të kemi instaluar paketën në sistemin tonë operativ, ne mund të konvertojmë një skedar PDF në tekst të thjeshtë. Mundet përpiquni të mbani modelin origjinal duke përdorur opsionin -vendosja me komandën, por mund të provojmë edhe pa të. Në një terminal (Ctrl + Alt + T) komanda për t'u përdorur do të ishte e mëposhtme:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Në komandën e mëparshme do të duhet të zëvendësojmë pdf-input.pdf me emrin e skedarit PDF që ne jemi të interesuar të konvertojmë, dhe pdf-dalje.txt me emrin e skedarit TXT në të cilin duam të ruajmë tekstin e skedarit PDF të hyrjes. Nëse nuk specifikojmë ndonjë skedar teksti dalës, pdftotext automatikisht do ta emërojë skedarin me të njëjtin emër si skedari origjinal PDF por me një shtrirje txt. Një tjetër gjë që mund të jetë interesante për t'i shtuar komandës do të jenë shtigjet para emrave të skedarëve nëse është e nevojshme (~ / Dokumentet / pdf-input.pdf).
Shndërroni vetëm një varg faqesh PDF në tekst
Nëse nuk jemi të interesuar të konvertojmë të gjithë skedarin PDF dhe ne duam ngushtoni një sërë faqesh PDF për t'u kthyer në tekst do të ketë përdor opsionin -f (faqja e parë për tu kthyer) Dhe -l (faqja e fundit për tu kthyer) e ndjekur nga secili opsion me numrin e faqes. Komanda për t'u përdorur do të ishte diçka si më poshtë:
pdftotext -layout -f P -l U pdf-entrada.pdf
Në komandën e mëparshme do t'ju duhet zëvendësoni shkronjat P dhe U me numrat e faqes së parë dhe të fundit për të nxjerrë. Emri i pdf-input.pdf Ne gjithashtu do të duhet ta ndryshojmë atë dhe t'i japim emrin e skedarit PDF me të cilin duam të punojmë.
Përdorni karaktere në fund të rreshtit
Këtë do të jemi në gjendje ta specifikojmë duke përdorur -eol të ndjekur nga mac, dos ose unix. Komanda e mëposhtme do të shtojë mbaresa të linjës unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Ndihmë
në kontrolloni opsionet në dispozicion, ekzekutoni faqen e burrit:
man pdftotext
Ju gjithashtu mundeni konsultohuni me opsionin e ndihmës me komandën:
pdftotext --help
Shndërroni skedarët PDF nga një dosje duke përdorur një lak Bash FOR
Në rast se duam të shndërrojmë të gjithë skedarët PDF në një dosje në skedarë me tekst, pdftotext nuk mbështet shndërrimin në grupe nga PDF në tekst. Esto ne do të jemi në gjendje ta bëjmë atë duke përdorur një lak Bash FOR në terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
në më shumë informacion në lidhje me pdftotext, ju mund të konsultoheni me faqja në internet e projektit. Në rast se nuk preferoni të shkruani komanda në terminal, gjithashtu mund të bëni perdor nje shërbim online për të marrë të njëjtin rezultat.
po, mirë funksionon, por ndonjëherë më duhet të bëj OCR ose të përdor Libre Office Draw.
Përveç kësaj ka shumë redaktorë të pdf. dhe me sa duket kjo nuk ndodh të dërgojë me imazhe në tekst, kështu që nuk e shoh praktike.
Dhe Libre Office Draw është intuitiv dhe praktik.