पीडीफ़ोटोटेक्स्ट, टर्मिनलमधून पीडीएफ रूपांतरित करा

pdftotext बद्दल

पुढील लेखात आम्ही पीडीफोटोटेक्स्ट वर एक नजर टाकणार आहोत. ही एक ओपन सोर्स कमांड लाइन युटिलिटी आहे जी आपल्याला परवानगी देईल साध्या मजकूर फायलींमध्ये पीडीएफ फायली रूपांतरित करा. मुळात ते जे करतो ते म्हणजे पीडीएफ फायलींमधील मजकूर डेटा काढणे. हे सॉफ्टवेअर विनामूल्य आहे आणि बर्‍याच Gnu / Linux वितरणात डीफॉल्टनुसार समाविष्ट केले आहे.

पुढील ओळींमध्ये आपण टर्मिनलचे एक साधन पाहणार आहोत, परंतु त्याच उद्देशाने पीडीएफ फाईलमधून मजकूर काढू शकतो आपण जसे की ग्राफिकल साधन देखील वापरू शकता कॅलिबर. हे लक्षात घेण्यासारखे आहे की ग्राफिकल साधन आणि टर्मिनलमध्ये आम्ही वापरू शकतो. पीडीएफ प्रतिमा बनवल्यास ते मजकूर काढू शकत नाहीत (छायाचित्रे, स्कॅन बुक प्रतिमा इ.).

बहुतेक Gnu / Linux वितरणांवर, पॉप्लर-युज पॅकेजचा भाग म्हणून pdftotext समाविष्ट केले आहे. हे टूल कमांड लाइन युटिलिटी आहे पीडीएफ फाइल्स साध्या मजकूरात रूपांतरित करा. त्यामध्ये आम्हाला रूपांतर करण्यासाठी पृष्ठांची श्रेणी निर्दिष्ट करण्याची क्षमता, मजकूराचा मूळ भौतिक लेआउट तसेच शक्य तितक्या शक्य ठेवण्याची क्षमता, संकेतशब्द-संरक्षित पीडीएफ फायलींसह कार्य करणे यासह बरेच पर्याय उपलब्ध आहेत. .

पीडीएफ वरून एक ज्ञात संकेतशब्द काढा
संबंधित लेख:
उबूतूमधील पीडीएफ फाईलमधून एक ज्ञात संकेतशब्द काढा

उबंटूवर पीडीफोटोटेक्स्ट स्थापित करा

आमच्या उबंटू सिस्टमवर हे साधन स्थापित करण्यासाठी, आपल्याकडे आधीपासूनच ते स्थापित केलेले नसल्यास, आपल्याला फक्त टर्मिनल (Ctrl + Alt + T) उघडावे लागेल आणि त्यामध्ये पुढील आज्ञा लिहावे लागेल. पॉपलर-वापर स्थापित करा:

पॉपलर उपयोगिता स्थापित करा

sudo apt install poppler-utils

Pdftotext कसे वापरावे

मजकूरामध्ये पीडीएफ फाइल रूपांतरित करा

एकदा आमच्या ऑपरेटिंग सिस्टमवर पॅकेज स्थापित झाल्यानंतर आम्ही पीडीएफ फाईल साध्या मजकूरात रूपांतरित करू शकतो. करू शकता पर्याय वापरून मूळ डिझाइन ठेवण्याचा प्रयत्न करा -पर्यत आदेशासह, परंतु आम्ही त्याशिवाय देखील प्रयत्न करू शकतो. टर्मिनलमध्ये (Ctrl + Alt + T) वापरण्याची आज्ञा खालीलप्रमाणे असेलः

पीडीएफटेटेक्स्ट पीडीएफला साध्या मजकूरात रूपांतरित करते

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

मागील कमांडमध्ये आपल्याला बदलणे आवश्यक आहे पीडीएफ-इनपुट.पीडीएफ आम्हाला रूपांतरित करण्यात स्वारस्य असलेल्या पीडीएफ फाईलच्या नावासह आणि pdf-output.txt TXT फाईलच्या नावाने ज्यामध्ये आम्हाला इनपुट पीडीएफ फाईलचा मजकूर सेव्ह करायचा आहे. आम्ही कोणतीही आउटपुट मजकूर फाईल निर्दिष्ट न केल्यास pdftotext स्वयंचलितपणे त्या फाईलचे नाव मूळ पीडीएफ फाइलप्रमाणेच नाव घेईल परंतु मजकूर विस्तारासह. आदेशास जोडणे मनोरंजक असू शकेल अशी आणखी एक गोष्ट आवश्यक असल्यास फाइल नावे असण्याचे मार्ग असतील (. / दस्तऐवज / पीडीएफ-इनपुट.पीडीएफ).

मजकूरात केवळ PDF पृष्ठांची श्रेणी रूपांतरित करा

आम्हाला संपूर्ण पीडीएफ फाइल रूपांतरित करण्यात रस नसल्यास आणि आम्हाला पाहिजे आहे मजकूरात रूपांतरित करण्यासाठी पीडीएफ पृष्ठांची श्रेणी लहान करा तेथे असेल वापर -f पर्याय (रूपांतरित करण्यासाठी प्रथम पृष्ठ) आणि -l (रूपांतरित करण्यासाठी अंतिम पृष्ठ) पृष्ठ क्रमांकासह प्रत्येक पर्यायानंतर. वापरण्याची कमांड खालीलप्रमाणे असेल:

pdftotext -layout -f P -l U pdf-entrada.pdf

मजकूर स्वरूपात एका पीडीएफच्या पृष्ठांची संख्या जतन करा

मागील कमांडमध्ये आपल्याला करावे लागेल प्रथम आणि शेवटच्या पृष्ठ क्रमांकासह पी आणि यू अक्षरे पुनर्स्थित करा काढणे. चे नाव पीडीएफ-इनपुट.पीडीएफ आम्हाला ते बदलून त्या पीडीएफ फाईलचे नाव द्यावे लागेल ज्याद्वारे आम्हाला काम करायचे आहे.

शेवटी-रेखा वर्ण वापरा

हे आम्ही निर्दिष्ट करण्यास सक्षम आहोत -Eol वापरुन मॅक, डॉस किंवा युनिक्सचा वापर. पुढील आदेश युनिक्स लाइन समाप्ती जोडेल:

pdftotext -layout -eol unix pdf-entrada.pdf

मदत

परिच्छेद उपलब्ध पर्याय तपासा, मेन पृष्ठ चालवा:

मॅन pdftotext

man pdftotext

आपण देखील करू शकता मदत पर्यायांचा सल्ला घ्या आदेशासह:

मदत कमांड pdftotext

pdftotext --help

बॅश फॉर लूपचा वापर करुन फोल्डरमधून पीडीएफ फाईल्स रूपांतरित करा

जर आपल्याला फोल्डरमधील सर्व पीडीएफ फाइल्स मजकूर फाइल्समध्ये रूपांतरित करायच्या असतील तर पीडीफोटोटेक्स्ट पीडीएफ वरून मजकूरामध्ये बॅच रूपांतरणाला समर्थन देत नाही. हे आम्ही बॅश फॉर लूप वापरुन हे करू टर्मिनलमध्ये (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

परिच्छेद pdftotext बद्दल अधिक माहिती, आपण सल्ला घेऊ शकता प्रकल्प वेबसाइट. जर तुम्हाला टर्मिनलवर कमांड टाईप करणे पसंत नसेल तर तुम्ही हे देखील करू शकता वापरा एक ऑनलाइन सेवा समान परिणाम मिळविण्यासाठी.


आपली टिप्पणी द्या

आपला ई-मेल पत्ता प्रकाशित केला जाणार नाही. आवश्यक फील्ड चिन्हांकित केले आहेत *

*

*

  1. डेटा जबाबदार: मिगुएल Áन्गल गॅटन
  2. डेटाचा उद्देशः नियंत्रण स्पॅम, टिप्पणी व्यवस्थापन.
  3. कायदे: आपली संमती
  4. डेटा संप्रेषण: कायदेशीर बंधन वगळता डेटा तृतीय पक्षास कळविला जाणार नाही.
  5. डेटा संग्रहण: ओकेन्टस नेटवर्क (EU) द्वारा होस्ट केलेला डेटाबेस
  6. अधिकारः कोणत्याही वेळी आपण आपली माहिती मर्यादित, पुनर्प्राप्त आणि हटवू शकता.

  1.   मोइफर निगथरेलिन म्हणाले

    होय, हे कार्य करते, परंतु काहीवेळा मला ओसीआर करावे लागेल किंवा लिबर ऑफिस ड्रॉ वापरावे लागेल.

    याव्यतिरिक्त बरेच पीडीएफ संपादक आहेत. आणि स्पष्टपणे हे मजकूर मजकूरावर घडत नाही, म्हणून मला ते व्यावहारिक दिसत नाही.

    आणि लिबर ऑफिस ड्रॉ अंतर्ज्ञानी आणि व्यावहारिक आहे.