पुढील लेखात आम्ही पीडीफोटोटेक्स्ट वर एक नजर टाकणार आहोत. ही एक ओपन सोर्स कमांड लाइन युटिलिटी आहे जी आपल्याला परवानगी देईल साध्या मजकूर फायलींमध्ये पीडीएफ फायली रूपांतरित करा. मुळात ते जे करतो ते म्हणजे पीडीएफ फायलींमधील मजकूर डेटा काढणे. हे सॉफ्टवेअर विनामूल्य आहे आणि बर्याच Gnu / Linux वितरणात डीफॉल्टनुसार समाविष्ट केले आहे.
पुढील ओळींमध्ये आपण टर्मिनलचे एक साधन पाहणार आहोत, परंतु त्याच उद्देशाने पीडीएफ फाईलमधून मजकूर काढू शकतो आपण जसे की ग्राफिकल साधन देखील वापरू शकता कॅलिबर. हे लक्षात घेण्यासारखे आहे की ग्राफिकल साधन आणि टर्मिनलमध्ये आम्ही वापरू शकतो. पीडीएफ प्रतिमा बनवल्यास ते मजकूर काढू शकत नाहीत (छायाचित्रे, स्कॅन बुक प्रतिमा इ.).
बहुतेक Gnu / Linux वितरणांवर, पॉप्लर-युज पॅकेजचा भाग म्हणून pdftotext समाविष्ट केले आहे. हे टूल कमांड लाइन युटिलिटी आहे पीडीएफ फाइल्स साध्या मजकूरात रूपांतरित करा. त्यामध्ये आम्हाला रूपांतर करण्यासाठी पृष्ठांची श्रेणी निर्दिष्ट करण्याची क्षमता, मजकूराचा मूळ भौतिक लेआउट तसेच शक्य तितक्या शक्य ठेवण्याची क्षमता, संकेतशब्द-संरक्षित पीडीएफ फायलींसह कार्य करणे यासह बरेच पर्याय उपलब्ध आहेत. .
उबंटूवर पीडीफोटोटेक्स्ट स्थापित करा
आमच्या उबंटू सिस्टमवर हे साधन स्थापित करण्यासाठी, आपल्याकडे आधीपासूनच ते स्थापित केलेले नसल्यास, आपल्याला फक्त टर्मिनल (Ctrl + Alt + T) उघडावे लागेल आणि त्यामध्ये पुढील आज्ञा लिहावे लागेल. पॉपलर-वापर स्थापित करा:
sudo apt install poppler-utils
Pdftotext कसे वापरावे
मजकूरामध्ये पीडीएफ फाइल रूपांतरित करा
एकदा आमच्या ऑपरेटिंग सिस्टमवर पॅकेज स्थापित झाल्यानंतर आम्ही पीडीएफ फाईल साध्या मजकूरात रूपांतरित करू शकतो. करू शकता पर्याय वापरून मूळ डिझाइन ठेवण्याचा प्रयत्न करा -पर्यत आदेशासह, परंतु आम्ही त्याशिवाय देखील प्रयत्न करू शकतो. टर्मिनलमध्ये (Ctrl + Alt + T) वापरण्याची आज्ञा खालीलप्रमाणे असेलः
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
मागील कमांडमध्ये आपल्याला बदलणे आवश्यक आहे पीडीएफ-इनपुट.पीडीएफ आम्हाला रूपांतरित करण्यात स्वारस्य असलेल्या पीडीएफ फाईलच्या नावासह आणि pdf-output.txt TXT फाईलच्या नावाने ज्यामध्ये आम्हाला इनपुट पीडीएफ फाईलचा मजकूर सेव्ह करायचा आहे. आम्ही कोणतीही आउटपुट मजकूर फाईल निर्दिष्ट न केल्यास pdftotext स्वयंचलितपणे त्या फाईलचे नाव मूळ पीडीएफ फाइलप्रमाणेच नाव घेईल परंतु मजकूर विस्तारासह. आदेशास जोडणे मनोरंजक असू शकेल अशी आणखी एक गोष्ट आवश्यक असल्यास फाइल नावे असण्याचे मार्ग असतील (. / दस्तऐवज / पीडीएफ-इनपुट.पीडीएफ).
मजकूरात केवळ PDF पृष्ठांची श्रेणी रूपांतरित करा
आम्हाला संपूर्ण पीडीएफ फाइल रूपांतरित करण्यात रस नसल्यास आणि आम्हाला पाहिजे आहे मजकूरात रूपांतरित करण्यासाठी पीडीएफ पृष्ठांची श्रेणी लहान करा तेथे असेल वापर -f पर्याय (रूपांतरित करण्यासाठी प्रथम पृष्ठ) आणि -l (रूपांतरित करण्यासाठी अंतिम पृष्ठ) पृष्ठ क्रमांकासह प्रत्येक पर्यायानंतर. वापरण्याची कमांड खालीलप्रमाणे असेल:
pdftotext -layout -f P -l U pdf-entrada.pdf
मागील कमांडमध्ये आपल्याला करावे लागेल प्रथम आणि शेवटच्या पृष्ठ क्रमांकासह पी आणि यू अक्षरे पुनर्स्थित करा काढणे. चे नाव पीडीएफ-इनपुट.पीडीएफ आम्हाला ते बदलून त्या पीडीएफ फाईलचे नाव द्यावे लागेल ज्याद्वारे आम्हाला काम करायचे आहे.
शेवटी-रेखा वर्ण वापरा
हे आम्ही निर्दिष्ट करण्यास सक्षम आहोत -Eol वापरुन मॅक, डॉस किंवा युनिक्सचा वापर. पुढील आदेश युनिक्स लाइन समाप्ती जोडेल:
pdftotext -layout -eol unix pdf-entrada.pdf
मदत
परिच्छेद उपलब्ध पर्याय तपासा, मेन पृष्ठ चालवा:
man pdftotext
आपण देखील करू शकता मदत पर्यायांचा सल्ला घ्या आदेशासह:
pdftotext --help
बॅश फॉर लूपचा वापर करुन फोल्डरमधून पीडीएफ फाईल्स रूपांतरित करा
जर आपल्याला फोल्डरमधील सर्व पीडीएफ फाइल्स मजकूर फाइल्समध्ये रूपांतरित करायच्या असतील तर पीडीफोटोटेक्स्ट पीडीएफ वरून मजकूरामध्ये बॅच रूपांतरणाला समर्थन देत नाही. हे आम्ही बॅश फॉर लूप वापरुन हे करू टर्मिनलमध्ये (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
परिच्छेद pdftotext बद्दल अधिक माहिती, आपण सल्ला घेऊ शकता प्रकल्प वेबसाइट. जर तुम्हाला टर्मिनलवर कमांड टाईप करणे पसंत नसेल तर तुम्ही हे देखील करू शकता वापरा एक ऑनलाइन सेवा समान परिणाम मिळविण्यासाठी.
होय, हे कार्य करते, परंतु काहीवेळा मला ओसीआर करावे लागेल किंवा लिबर ऑफिस ड्रॉ वापरावे लागेल.
याव्यतिरिक्त बरेच पीडीएफ संपादक आहेत. आणि स्पष्टपणे हे मजकूर मजकूरावर घडत नाही, म्हणून मला ते व्यावहारिक दिसत नाही.
आणि लिबर ऑफिस ड्रॉ अंतर्ज्ञानी आणि व्यावहारिक आहे.