अगले लेख में हम pdftotext पर एक नज़र डालने जा रहे हैं। यह एक ओपन सोर्स कमांड लाइन उपयोगिता है जो हमें अनुमति देगा पीडीएफ फाइलों को सादे पाठ फ़ाइलों में परिवर्तित करें। मूल रूप से यह क्या करता है पीडीएफ फाइलों से पाठ डेटा को निकालने। यह सॉफ्टवेयर मुफ़्त है और कई Gnu / Linux वितरण में डिफ़ॉल्ट रूप से शामिल है।
निम्नलिखित पंक्तियों में हम टर्मिनल के लिए एक उपकरण देखेंगे, लेकिन पीडीएफ फाइलों से पाठ निकालने के समान उद्देश्य के लिए आप जैसे ग्राफिकल टूल का उपयोग कर सकते हैं बुद्धि का विस्तार। यह ध्यान देने योग्य है कि दोनों ग्राफिकल टूल और एक जिसे हम टर्मिनल में उपयोग कर सकते हैं, यदि पीडीएफ छवियों से बना है, तो वे पाठ को नहीं निकाल सकते (तस्वीरें, स्कैन की गई पुस्तक चित्र आदि।).
अधिकांश Gnu / Linux वितरण पर, pdftotext को poppler-utils पैकेज के हिस्से के रूप में शामिल किया गया है। यह उपकरण एक कमांड लाइन उपयोगिता है पीडीएफ फाइलों को सादे पाठ में परिवर्तित करें। इसमें हमें कई विकल्प उपलब्ध होंगे, जिनमें परिवर्तित करने के लिए पृष्ठों की सीमा निर्दिष्ट करने की क्षमता, पाठ के मूल भौतिक लेआउट को यथासंभव रखने की क्षमता, लाइन के अंत को सेट करना और यहां तक कि पासवर्ड द्वारा संरक्षित पीडीएफ फाइलों के साथ काम करना शामिल है। ।
Ubuntu पर pdftotext स्थापित करें
हमारे उबंटू प्रणाली पर इस उपकरण को स्थापित करने के लिए, यदि आपके पास पहले से यह स्थापित नहीं है, तो आपको बस एक टर्मिनल (Ctrl + Alt + T) खोलना होगा और उसमें निम्नलिखित कमांड लिखना होगा। poppler- बर्तन स्थापित करें:
sudo apt install poppler-utils
Pdftotext का उपयोग कैसे करें
एक पीडीएफ फाइल को टेक्स्ट में बदलें
एक बार हमारे ऑपरेटिंग सिस्टम पर पैकेज स्थापित हो जाने के बाद, हम एक पीडीएफ फाइल को सादे पाठ में बदल सकते हैं। कर सकते हैं विकल्प का उपयोग करके मूल डिज़ाइन रखने की कोशिश करें -बेलआउट कमांड के साथ, लेकिन हम इसके बिना भी प्रयास कर सकते हैं। एक टर्मिनल में (Ctrl + Alt + T) उपयोग करने का कमांड निम्नलिखित होगा:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
पिछली कमांड में हमें प्रतिस्थापित करना होगा pdf-input.pdf पीडीएफ फाइल के नाम के साथ जिसे हम कनवर्ट करने में रुचि रखते हैं, और pdf-output.txt TXT फ़ाइल के नाम से जिसमें हम इनपुट पीडीएफ फाइल के पाठ को सहेजना चाहते हैं। यदि हम कोई आउटपुट टेक्स्ट फ़ाइल निर्दिष्ट नहीं करते हैं, तो pdftotext अपने आप फ़ाइल को मूल PDF फ़ाइल के समान नाम के साथ लेकिन txt एक्सटेंशन के साथ फ़ाइल नाम देगा। एक और बात जो कमांड में जोड़ना दिलचस्प हो सकता है यदि आवश्यक हो तो फ़ाइल नामों से पहले पथ होंगे (~ / दस्तावेज / पीडीएफ- input.pdf).
पीडीएफ पृष्ठों की केवल एक सीमा को पाठ में बदलें
यदि हम संपूर्ण PDF फ़ाइल को परिवर्तित करने में रुचि नहीं रखते हैं, और हम चाहते हैं पाठ में बदलने के लिए पीडीएफ पृष्ठों की एक श्रृंखला को संकीर्ण करें वहां होगा उपयोग -f विकल्प (परिवर्तित करने के लिए पहला पृष्ठ) और -l (अंतिम पृष्ठ परिवर्तित करने के लिए) पृष्ठ संख्या के साथ प्रत्येक विकल्प के बाद। उपयोग करने का आदेश निम्नलिखित जैसा कुछ होगा:
pdftotext -layout -f P -l U pdf-entrada.pdf
पिछले कमांड में आपको करना होगा P और U को पहले और आखिरी पेज नंबर से बदलें निस्सारण करना। का नाम pdf-input.pdf हमें इसे भी बदलना होगा और इसे पीडीएफ फाइल का नाम देना होगा, जिसके साथ हम काम करना चाहते हैं।
लाइन के अंत वर्णों का उपयोग करें
यह हम निर्दिष्ट कर सकेंगे का उपयोग करते हुए मैक, डॉस या यूनिक्स द्वारा पीछा किया। निम्नलिखित कमांड यूनिक्स लाइन अंत जोड़ देगा:
pdftotext -layout -eol unix pdf-entrada.pdf
मदद
पैरा उपलब्ध विकल्पों की जाँच करें, मैन पेज चलाएं:
man pdftotext
आप भी कर सकते हैं सहायता विकल्प से परामर्श करें कमांड के साथ:
pdftotext --help
बैश फॉर लूप का उपयोग करके पीडीएफ फाइलों को एक फोल्डर से कन्वर्ट करें
यदि हम फ़ोल्डर में सभी पीडीएफ फाइलों को टेक्स्ट फाइल में बदलना चाहते हैं, pdftotext पीडीएफ से पाठ में बैच रूपांतरण का समर्थन नहीं करता है। यह हम इसे बैश फॉर लूप का उपयोग कर पाएंगे टर्मिनल में (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
पैरा pdftotext के बारे में अधिक जानकारी, आप परामर्श कर सकते हैं परियोजना की वेबसाइट। यदि आप टर्मिनल में कमांड टाइप नहीं करना चाहते हैं, तो आप भी कर सकते हैं का उपयोग करें ऑनलाइन सेवा उसी परिणाम को पाने के लिए।
हां, यह अच्छी तरह से काम करता है, लेकिन कभी-कभी मुझे ओसीआर करना पड़ता है या लिब्रे ऑफिस ड्रा का उपयोग करना पड़ता है।
इसके अलावा कई पीडीएफ एडिटर हैं। और स्पष्ट रूप से यह छवियों को पाठ करने के लिए नहीं होता है, इसलिए मैं इसे व्यावहारिक नहीं देखता हूं।
और लिब्रे ऑफिस ड्रॉ सहज और व्यावहारिक है।