Pdftotext, टर्मिनल से पाठ के लिए एक पीडीएफ कन्वर्ट

pdftotext के बारे में

अगले लेख में हम pdftotext पर एक नज़र डालने जा रहे हैं। यह एक ओपन सोर्स कमांड लाइन उपयोगिता है जो हमें अनुमति देगा पीडीएफ फाइलों को सादे पाठ फ़ाइलों में परिवर्तित करें। मूल रूप से यह क्या करता है पीडीएफ फाइलों से पाठ डेटा को निकालने। यह सॉफ्टवेयर मुफ़्त है और कई Gnu / Linux वितरण में डिफ़ॉल्ट रूप से शामिल है।

निम्नलिखित पंक्तियों में हम टर्मिनल के लिए एक उपकरण देखेंगे, लेकिन पीडीएफ फाइलों से पाठ निकालने के समान उद्देश्य के लिए आप जैसे ग्राफिकल टूल का उपयोग कर सकते हैं बुद्धि का विस्तार। यह ध्यान देने योग्य है कि दोनों ग्राफिकल टूल और एक जिसे हम टर्मिनल में उपयोग कर सकते हैं, यदि पीडीएफ छवियों से बना है, तो वे पाठ को नहीं निकाल सकते (तस्वीरें, स्कैन की गई पुस्तक चित्र आदि।).

अधिकांश Gnu / Linux वितरण पर, pdftotext को poppler-utils पैकेज के हिस्से के रूप में शामिल किया गया है। यह उपकरण एक कमांड लाइन उपयोगिता है पीडीएफ फाइलों को सादे पाठ में परिवर्तित करें। इसमें हमें कई विकल्प उपलब्ध होंगे, जिनमें परिवर्तित करने के लिए पृष्ठों की सीमा निर्दिष्ट करने की क्षमता, पाठ के मूल भौतिक लेआउट को यथासंभव रखने की क्षमता, लाइन के अंत को सेट करना और यहां तक ​​कि पासवर्ड द्वारा संरक्षित पीडीएफ फाइलों के साथ काम करना शामिल है। ।

एक पीडीएफ से एक ज्ञात पासवर्ड को हटाने के बारे में
संबंधित लेख:
Ubutu में एक पीडीएफ फाइल से एक ज्ञात पासवर्ड निकालें

Ubuntu पर pdftotext स्थापित करें

हमारे उबंटू प्रणाली पर इस उपकरण को स्थापित करने के लिए, यदि आपके पास पहले से यह स्थापित नहीं है, तो आपको बस एक टर्मिनल (Ctrl + Alt + T) खोलना होगा और उसमें निम्नलिखित कमांड लिखना होगा। poppler- बर्तन स्थापित करें:

पॉपलर बर्तन स्थापित करें

sudo apt install poppler-utils

Pdftotext का उपयोग कैसे करें

एक पीडीएफ फाइल को टेक्स्ट में बदलें

एक बार हमारे ऑपरेटिंग सिस्टम पर पैकेज स्थापित हो जाने के बाद, हम एक पीडीएफ फाइल को सादे पाठ में बदल सकते हैं। कर सकते हैं विकल्प का उपयोग करके मूल डिज़ाइन रखने की कोशिश करें -बेलआउट कमांड के साथ, लेकिन हम इसके बिना भी प्रयास कर सकते हैं। एक टर्मिनल में (Ctrl + Alt + T) उपयोग करने का कमांड निम्नलिखित होगा:

pdftotext को pdf को सादे टेक्स्ट में बदलें

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

पिछली कमांड में हमें प्रतिस्थापित करना होगा pdf-input.pdf पीडीएफ फाइल के नाम के साथ जिसे हम कनवर्ट करने में रुचि रखते हैं, और pdf-output.txt TXT फ़ाइल के नाम से जिसमें हम इनपुट पीडीएफ फाइल के पाठ को सहेजना चाहते हैं। यदि हम कोई आउटपुट टेक्स्ट फ़ाइल निर्दिष्ट नहीं करते हैं, तो pdftotext अपने आप फ़ाइल को मूल PDF फ़ाइल के समान नाम के साथ लेकिन txt एक्सटेंशन के साथ फ़ाइल नाम देगा। एक और बात जो कमांड में जोड़ना दिलचस्प हो सकता है यदि आवश्यक हो तो फ़ाइल नामों से पहले पथ होंगे (~ / दस्तावेज / पीडीएफ- input.pdf).

पीडीएफ पृष्ठों की केवल एक सीमा को पाठ में बदलें

यदि हम संपूर्ण PDF फ़ाइल को परिवर्तित करने में रुचि नहीं रखते हैं, और हम चाहते हैं पाठ में बदलने के लिए पीडीएफ पृष्ठों की एक श्रृंखला को संकीर्ण करें वहां होगा उपयोग -f विकल्प (परिवर्तित करने के लिए पहला पृष्ठ) और -l (अंतिम पृष्ठ परिवर्तित करने के लिए) पृष्ठ संख्या के साथ प्रत्येक विकल्प के बाद। उपयोग करने का आदेश निम्नलिखित जैसा कुछ होगा:

pdftotext -layout -f P -l U pdf-entrada.pdf

एक पीडीएफ के पृष्ठों की संख्या में पाठ प्रारूप में सहेजें

पिछले कमांड में आपको करना होगा P और U को पहले और आखिरी पेज नंबर से बदलें निस्सारण ​​करना। का नाम pdf-input.pdf हमें इसे भी बदलना होगा और इसे पीडीएफ फाइल का नाम देना होगा, जिसके साथ हम काम करना चाहते हैं।

लाइन के अंत वर्णों का उपयोग करें

यह हम निर्दिष्ट कर सकेंगे का उपयोग करते हुए मैक, डॉस या यूनिक्स द्वारा पीछा किया। निम्नलिखित कमांड यूनिक्स लाइन अंत जोड़ देगा:

pdftotext -layout -eol unix pdf-entrada.pdf

मदद

पैरा उपलब्ध विकल्पों की जाँच करें, मैन पेज चलाएं:

आदमी pdftotext

man pdftotext

आप भी कर सकते हैं सहायता विकल्प से परामर्श करें कमांड के साथ:

मदद pdftotext कमांड

pdftotext --help

बैश फॉर लूप का उपयोग करके पीडीएफ फाइलों को एक फोल्डर से कन्वर्ट करें

यदि हम फ़ोल्डर में सभी पीडीएफ फाइलों को टेक्स्ट फाइल में बदलना चाहते हैं, pdftotext पीडीएफ से पाठ में बैच रूपांतरण का समर्थन नहीं करता है। यह हम इसे बैश फॉर लूप का उपयोग कर पाएंगे टर्मिनल में (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

पैरा pdftotext के बारे में अधिक जानकारी, आप परामर्श कर सकते हैं परियोजना की वेबसाइट। यदि आप टर्मिनल में कमांड टाइप नहीं करना चाहते हैं, तो आप भी कर सकते हैं का उपयोग करें ऑनलाइन सेवा उसी परिणाम को पाने के लिए।


अपनी टिप्पणी दर्ज करें

आपका ईमेल पता प्रकाशित नहीं किया जाएगा। आवश्यक फ़ील्ड के साथ चिह्नित कर रहे हैं *

*

*

  1. डेटा के लिए जिम्मेदार: मिगुएल elngel Gatón
  2. डेटा का उद्देश्य: नियंत्रण स्पैम, टिप्पणी प्रबंधन।
  3. वैधता: आपकी सहमति
  4. डेटा का संचार: डेटा को कानूनी बाध्यता को छोड़कर तीसरे पक्ष को संचार नहीं किया जाएगा।
  5. डेटा संग्रहण: ऑकेंटस नेटवर्क्स (EU) द्वारा होस्ट किया गया डेटाबेस
  6. अधिकार: किसी भी समय आप अपनी जानकारी को सीमित, पुनर्प्राप्त और हटा सकते हैं।

  1.   मोएफ़र निगथ्रेलिन कहा

    हां, यह अच्छी तरह से काम करता है, लेकिन कभी-कभी मुझे ओसीआर करना पड़ता है या लिब्रे ऑफिस ड्रा का उपयोग करना पड़ता है।

    इसके अलावा कई पीडीएफ एडिटर हैं। और स्पष्ट रूप से यह छवियों को पाठ करने के लिए नहीं होता है, इसलिए मैं इसे व्यावहारिक नहीं देखता हूं।

    और लिब्रे ऑफिस ड्रॉ सहज और व्यावहारिक है।