পরের নিবন্ধে আমরা পিডিফোটেক্সটেক্সট একবার দেখে নিই। এটি একটি ওপেন সোর্স কমান্ড লাইন ইউটিলিটি যা আমাদের অনুমতি দেবে পিডিএফ ফাইলগুলি সরল পাঠ্য ফাইলগুলিতে রূপান্তর করুন। মূলত এটি যা করে তা হ'ল পিডিএফ ফাইলগুলি থেকে পাঠ্য ডেটা বের করা। এই সফ্টওয়্যারটি বিনামূল্যে এবং অনেকগুলি Gnu / Linux বিতরণে ডিফল্টরূপে অন্তর্ভুক্ত থাকে।
নিম্নলিখিত লাইনগুলিতে আমরা টার্মিনালের জন্য একটি সরঞ্জাম দেখতে যাচ্ছি, তবে পিডিএফ ফাইলগুলি থেকে পাঠ্য আহরণের একই উদ্দেশ্যে আপনি যেমন একটি গ্রাফিকাল সরঞ্জাম ব্যবহার করতে পারেন ধীশক্তি। এটি লক্ষণীয় যে গ্রাফিকাল সরঞ্জাম এবং একটি যা আমরা টার্মিনালে ব্যবহার করতে পারি, পিডিএফ চিত্রগুলি তৈরি করে থাকলে তারা পাঠ্যটি বের করতে পারবেন না (ফটোগ্রাফ, স্ক্যান করা বইয়ের ছবি ইত্যাদি).
বেশিরভাগ Gnu / Linux বিতরণে, পপ্প্লার-ইউজ প্যাকেজের অংশ হিসাবে পিডিফটেক্সটেক্সট অন্তর্ভুক্ত করা হয়েছে। এই সরঞ্জামটি একটি কমান্ড লাইন ইউটিলিটি পিডিএফ ফাইলগুলি সরল পাঠ্যে রূপান্তর করুন। এতে আমরা রূপান্তর করতে পৃষ্ঠাগুলির সীমা নির্দিষ্টকরণের ক্ষমতা, পাঠ্যের মূল শারীরিক বিন্যাস পাশাপাশি রাখার ক্ষমতা, লাইন সমাপ্তি সেট করা এবং এমনকি পাসওয়ার্ড-সুরক্ষিত পিডিএফ ফাইলগুলির সাথে কাজ সহ অনেকগুলি উপলভ্য উপলভ্য পাই find ।
উবুন্টুতে পিডিফোটোটেক্সট ইনস্টল করুন
আমাদের উবুন্টু সিস্টেমে এই সরঞ্জামটি ইনস্টল করতে, যদি আপনি ইতিমধ্যে এটি ইনস্টল না করে থাকেন তবে আপনাকে কেবল একটি টার্মিনাল (Ctrl + Alt + T) খুলতে হবে এবং এতে নিম্নলিখিত কমান্ডটি লিখতে হবে পপলার-ব্যবহারগুলি ইনস্টল করুন:
sudo apt install poppler-utils
পিডিফুটটেক্সট কীভাবে ব্যবহার করবেন
একটি পিডিএফ ফাইল পাঠ্যে রূপান্তর করুন
আমাদের অপারেটিং সিস্টেমে একবার প্যাকেজ ইনস্টল হয়ে গেলে, আমরা একটি পিডিএফ ফাইল সরল পাঠ্যে রূপান্তর করতে পারি। করতে পারা বিকল্পটি ব্যবহার করে মূল নকশা রাখার চেষ্টা করুন -আউটআউট কমান্ড সহ, তবে আমরা এটি ছাড়াও চেষ্টা করতে পারি। একটি টার্মিনালে (Ctrl + Alt + T) কমান্ডটি নিম্নরূপ হবে:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
পূর্ববর্তী কমান্ডে আমাদের প্রতিস্থাপন করতে হবে পিডিএফ-ইনপুট.পিডিএফ আমরা রূপান্তর করতে আগ্রহী পিডিএফ ফাইলের নাম সহ এবং pdf-output.txt TXT ফাইলের নামে আমরা ইনপুট পিডিএফ ফাইলটির পাঠ্য সংরক্ষণ করতে চাই। আমরা যদি কোনও আউটপুট পাঠ্য ফাইল নির্দিষ্ট না করি তবে পিডিফোটটেক্সট স্বয়ংক্রিয়ভাবে ফাইলটির নাম মূল পিডিএফ ফাইল হিসাবে একই নামের সাথে নাম লেখাবে তবে একটি টেক্সট এক্সটেনশন সহ। কমান্ডটি যুক্ত করা আকর্ষণীয় হতে পারে এমন আরেকটি জিনিস হ'ল প্রয়োজনে ফাইলের নামের আগে পাথ হবে (Doc / ডকুমেন্টস / পিডিএফ-ইনপুট.পিডিএফ).
কেবলমাত্র পিডিএফ পৃষ্ঠাগুলির একটি পরিসীমা পাঠ্যে রূপান্তর করুন
আমরা যদি পুরো পিডিএফ ফাইল রূপান্তর করতে আগ্রহী না হই, এবং আমরা চাই পাঠ্যে রূপান্তর করতে পিডিএফ পৃষ্ঠাগুলির একটি পরিসরকে সঙ্কুচিত করুন সেখানে হবে ব্যবহার -f বিকল্প (রূপান্তর করার জন্য প্রথম পৃষ্ঠা) Y -l (রূপান্তর করার জন্য শেষ পৃষ্ঠা) পৃষ্ঠা নম্বর সহ প্রতিটি বিকল্প অনুসরণ করে। কমান্ডটি নিম্নের মতো কিছু হবে:
pdftotext -layout -f P -l U pdf-entrada.pdf
আগের কমান্ডে আপনাকে করতে হবে প্রথম এবং শেষ পৃষ্ঠাগুলির সাথে P এবং U বর্ণগুলি প্রতিস্থাপন করুন নিষ্কর্ষ. নাম পিডিএফ-ইনপুট.পিডিএফ আমাদের এটি পরিবর্তন করতে হবে এবং এটি পিডিএফ ফাইলের নাম দিতে হবে যার সাহায্যে আমরা কাজ করতে চাই।
লাইন-এর শেষের অক্ষরগুলি ব্যবহার করুন
এটি আমরা নির্দিষ্ট করতে সক্ষম হব ম্যাক, ডস বা ইউনিক্সের পরে -Eol ব্যবহার করুন। নিম্নলিখিত কমান্ডটি ইউনিক্স লাইনের শেষ যোগ করবে:
pdftotext -layout -eol unix pdf-entrada.pdf
সাহায্য
পাড়া উপলব্ধ বিকল্প চেক, ম্যান পৃষ্ঠাটি চালান:
man pdftotext
আপনিও পারেন সহায়তা বিকল্পের পরামর্শ নিন আদেশ সহ:
pdftotext --help
ফ্যাস ফোল্ডার থেকে পিএসএফ ফাইলগুলি ব্যাশ ফর লুপ ব্যবহার করে রূপান্তর করুন
যদি আমরা ফোল্ডারে থাকা সমস্ত পিডিএফ ফাইলগুলি পাঠ্য ফাইলগুলিতে রূপান্তর করতে চাই, পিডিফটেক্সট পিডিএফ থেকে পাঠ্যে ব্যাচের রূপান্তরকে সমর্থন করে না। এই আমরা এটি ব্যাশ ফর লুপ ব্যবহার করে করতে সক্ষম হব টার্মিনালে (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
পাড়া pdftotext সম্পর্কে আরও তথ্য, আপনি পরামর্শ করতে পারেন প্রকল্প ওয়েবসাইট। আপনি যদি টার্মিনালে কমান্ড টাইপ না করতে পছন্দ করেন তবে আপনি এটিও করতে পারেন ব্যবহার করা অনলাইন পরিষেবা একই ফলাফল পেতে।
হ্যাঁ, এটি কার্যকরভাবে কাজ করে তবে কখনও কখনও আমাকে ওসিআর করতে হয় বা লিব্রে অফিস ড্র ব্যবহার করতে হয়।
এছাড়াও অনেক পিডিএফ সম্পাদক রয়েছে। এবং দৃশ্যত চিত্রগুলির পাঠ্যের ক্ষেত্রে এটি ঘটে না, তাই আমি এটি ব্যবহারিক দেখছি না।
এবং লিব্রে অফিস অঙ্কন স্বজ্ঞাত এবং ব্যবহারিক।