Pdftotext, i-convert ang isang PDF sa teksto mula sa terminal

tungkol sa pdftotext

Sa susunod na artikulo ay titingnan natin ang pdftotext. Ito ay isang bukas na mapagkukunan ng linya ng utos ng utos na magbibigay-daan sa amin i-convert ang mga PDF file sa payak na mga file ng teksto. Karaniwan kung ano ang ginagawa nito ay kunin ang data ng teksto mula sa mga PDF file. Ang software na ito ay libre at isinama bilang default sa maraming pamamahagi ng Gnu / Linux.

Sa mga sumusunod na linya makikita namin ang isang tool para sa terminal, ngunit para sa parehong layunin ng pagkuha ng teksto mula sa mga PDF file maaari mo ring gamitin ang isang graphic na kagamitang tulad kalibre. Ito ay nagkakahalaga ng pansin na ang parehong mga graphic na tool at ang isa na maaari naming magamit sa terminal, hindi nila maaaring makuha ang teksto kung ang PDF ay gawa sa mga imahe (mga larawan, na-scan na larawan ng libro, atbp.).

Sa karamihan ng mga pamamahagi ng Gnu / Linux, Ang pdftotext ay kasama bilang bahagi ng poppler-utils package. Ang tool na ito ay isang utility ng linya ng utos na i-convert ang mga PDF file sa simpleng teksto. Dito mahahanap natin ang maraming mga pagpipilian na magagamit, kasama ang kakayahang tukuyin ang saklaw ng mga pahina upang mag-convert, ang kakayahang mapanatili ang orihinal na pisikal na layout ng teksto pati na rin posible, itakda ang mga pagtatapos ng linya, at kahit na gumana kasama ang mga file na protektado ng password na PDF .

tungkol sa alisin ang isang kilalang password mula sa isang pdf
Kaugnay na artikulo:
Alisin ang isang kilalang password mula sa isang PDF file sa Ubutu

I-install ang pdftotext sa Ubuntu

Upang mai-install ang tool na ito sa aming system ng Ubuntu, kung sakaling hindi mo pa ito naka-install, kailangan mo lamang buksan ang isang terminal (Ctrl + Alt + T) at isulat ang sumusunod na utos dito i-install ang mga poppler-util:

i-install ang mga kagamitan sa poppler

sudo apt install poppler-utils

Paano gamitin ang pdftotext

I-convert ang isang PDF file sa teksto

Kapag na-install na ang pakete sa aming operating system, maaari naming mai-convert ang isang PDF file sa simpleng teksto. Maaari subukang panatilihin ang orihinal na disenyo gamit ang pagpipilian -playout sa utos, ngunit maaari din nating subukan nang wala ito. Sa isang terminal (Ctrl + Alt + T) ang utos na gagamitin ay ang sumusunod:

I-convert ng pdftotext ang pdf sa simpleng teksto

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Sa nakaraang utos kailangan nating palitan pdf-input.pdf kasama ang pangalan ng PDF file na interesado kaming i-convert, at pdf-output.txt sa pamamagitan ng pangalan ng file na TXT kung saan nais naming i-save ang teksto ng input na PDF file. Kung hindi namin tinukoy ang anumang output text file, awtomatikong pangalanan ng pdftotext ang file na may parehong pangalan tulad ng orihinal na PDF file ngunit may isang extension na txt. Ang isa pang bagay na maaaring maging kagiliw-giliw na idagdag sa utos ay ang mga landas bago ang mga pangalan ng file kung kinakailangan (~ / Documents / pdf-input.pdf).

I-convert lamang ang isang saklaw ng mga pahina ng PDF sa teksto

Kung hindi kami interesado na i-convert ang buong PDF file, at nais namin paliitin ang isang saklaw ng mga pahina ng PDF upang mai-convert sa teksto magkakaroon paggamit -f pagpipilian (unang pahina upang i-convert) At -l (huling pahina upang i-convert) sinundan ng bawat pagpipilian na may numero ng pahina. Ang utos na gamitin ay magiging tulad ng sumusunod:

pdftotext -layout -f P -l U pdf-entrada.pdf

makatipid sa format ng teksto ng isang naibigay na bilang ng mga pahina ng isang pdf

Sa nakaraang utos kailangan mong gawin palitan ang mga letrang P at U ng una at huling numero ng pahina upang kunin. Ang pangalan ng pdf-input.pdf Kailangan din nating baguhin ito at bigyan ito ng pangalan ng PDF file na nais naming gumana.

Gumamit ng mga end-of-line na character

Maaari naming tukuyin ito gamit ang -eol na sinusundan ng mac, dos o unix. Ang sumusunod na utos ay magdaragdag ng mga pagtatapos ng linya ng unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Tulong

Sa suriin ang mga magagamit na pagpipilian, patakbuhin ang pahina ng tao:

tao pdftotext

man pdftotext

Maaari mo ring kumunsulta sa pagpipilian ng tulong may utos:

tulong utusan pdftotext

pdftotext --help

I-convert ang mga PDF file mula sa isang folder gamit ang isang Bash FOR loop

Kung sakaling nais naming mai-convert ang lahat ng mga PDF file sa isang folder sa mga text file, Hindi sinusuportahan ng pdftotext ang pag-convert ng batch mula sa PDF patungong teksto. Ito magagawa namin ito gamit ang isang loop na Bash FOR sa terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

Sa karagdagang impormasyon tungkol sa pdftotext, maaari kang kumunsulta sa website ng proyekto. Kung sakaling gugustuhin mong hindi na mai-type ang mga utos sa terminal, maaari mo rin gumamit ng a serbisyo sa online upang makuha ang parehong resulta.


Iwanan ang iyong puna

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan ng *

*

*

  1. Responsable para sa data: Miguel Ángel Gatón
  2. Layunin ng data: Kontrolin ang SPAM, pamamahala ng komento.
  3. Legitimation: Ang iyong pahintulot
  4. Komunikasyon ng data: Ang data ay hindi maiparating sa mga third party maliban sa ligal na obligasyon.
  5. Imbakan ng data: Ang database na naka-host ng Occentus Networks (EU)
  6. Mga Karapatan: Sa anumang oras maaari mong limitahan, mabawi at tanggalin ang iyong impormasyon.

  1.   Moypher Nightkrelin dijo

    oo, maayos na gumagana ito, ngunit kung minsan kailangan kong mag-OCR o gumamit ng Libre Office Draw.

    Bilang karagdagan maraming mga editor ng pdf. at maliwanag na hindi ito nangyayari sa pag-text ng mga imahe, kaya't hindi ko nakikita na praktikal ito.

    At ang Libre Office Draw ay madaling maunawaan at praktikal.