পিডিফোটটেক্সট, টার্মিনাল থেকে একটি পিডিএফ রূপান্তর করুন

pdftotext সম্পর্কে

পরের নিবন্ধে আমরা পিডিফোটেক্সটেক্সট একবার দেখে নিই। এটি একটি ওপেন সোর্স কমান্ড লাইন ইউটিলিটি যা আমাদের অনুমতি দেবে পিডিএফ ফাইলগুলি সরল পাঠ্য ফাইলগুলিতে রূপান্তর করুন। মূলত এটি যা করে তা হ'ল পিডিএফ ফাইলগুলি থেকে পাঠ্য ডেটা বের করা। এই সফ্টওয়্যারটি বিনামূল্যে এবং অনেকগুলি Gnu / Linux বিতরণে ডিফল্টরূপে অন্তর্ভুক্ত থাকে।

নিম্নলিখিত লাইনগুলিতে আমরা টার্মিনালের জন্য একটি সরঞ্জাম দেখতে যাচ্ছি, তবে পিডিএফ ফাইলগুলি থেকে পাঠ্য আহরণের একই উদ্দেশ্যে আপনি যেমন একটি গ্রাফিকাল সরঞ্জাম ব্যবহার করতে পারেন ধীশক্তি। এটি লক্ষণীয় যে গ্রাফিকাল সরঞ্জাম এবং একটি যা আমরা টার্মিনালে ব্যবহার করতে পারি, পিডিএফ চিত্রগুলি তৈরি করে থাকলে তারা পাঠ্যটি বের করতে পারবেন না (ফটোগ্রাফ, স্ক্যান করা বইয়ের ছবি ইত্যাদি).

বেশিরভাগ Gnu / Linux বিতরণে, পপ্প্লার-ইউজ প্যাকেজের অংশ হিসাবে পিডিফটেক্সটেক্সট অন্তর্ভুক্ত করা হয়েছে। এই সরঞ্জামটি একটি কমান্ড লাইন ইউটিলিটি পিডিএফ ফাইলগুলি সরল পাঠ্যে রূপান্তর করুন। এতে আমরা রূপান্তর করতে পৃষ্ঠাগুলির সীমা নির্দিষ্টকরণের ক্ষমতা, পাঠ্যের মূল শারীরিক বিন্যাস পাশাপাশি রাখার ক্ষমতা, লাইন সমাপ্তি সেট করা এবং এমনকি পাসওয়ার্ড-সুরক্ষিত পিডিএফ ফাইলগুলির সাথে কাজ সহ অনেকগুলি উপলভ্য উপলভ্য পাই find ।

একটি পিডিএফ থেকে একটি পরিচিত পাসওয়ার্ড অপসারণ সম্পর্কে
সম্পর্কিত নিবন্ধ:
উবুতুতে একটি পিডিএফ ফাইল থেকে একটি পরিচিত পাসওয়ার্ড সরান

উবুন্টুতে পিডিফোটোটেক্সট ইনস্টল করুন

আমাদের উবুন্টু সিস্টেমে এই সরঞ্জামটি ইনস্টল করতে, যদি আপনি ইতিমধ্যে এটি ইনস্টল না করে থাকেন তবে আপনাকে কেবল একটি টার্মিনাল (Ctrl + Alt + T) খুলতে হবে এবং এতে নিম্নলিখিত কমান্ডটি লিখতে হবে পপলার-ব্যবহারগুলি ইনস্টল করুন:

পপলার ব্যবহারগুলি ইনস্টল করুন

sudo apt install poppler-utils

পিডিফুটটেক্সট কীভাবে ব্যবহার করবেন

একটি পিডিএফ ফাইল পাঠ্যে রূপান্তর করুন

আমাদের অপারেটিং সিস্টেমে একবার প্যাকেজ ইনস্টল হয়ে গেলে, আমরা একটি পিডিএফ ফাইল সরল পাঠ্যে রূপান্তর করতে পারি। করতে পারা বিকল্পটি ব্যবহার করে মূল নকশা রাখার চেষ্টা করুন -আউটআউট কমান্ড সহ, তবে আমরা এটি ছাড়াও চেষ্টা করতে পারি। একটি টার্মিনালে (Ctrl + Alt + T) কমান্ডটি নিম্নরূপ হবে:

পিডিফটেক্সট পিডিএফকে সরল পাঠ্যে রূপান্তর করে

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

পূর্ববর্তী কমান্ডে আমাদের প্রতিস্থাপন করতে হবে পিডিএফ-ইনপুট.পিডিএফ আমরা রূপান্তর করতে আগ্রহী পিডিএফ ফাইলের নাম সহ এবং pdf-output.txt TXT ফাইলের নামে আমরা ইনপুট পিডিএফ ফাইলটির পাঠ্য সংরক্ষণ করতে চাই। আমরা যদি কোনও আউটপুট পাঠ্য ফাইল নির্দিষ্ট না করি তবে পিডিফোটটেক্সট স্বয়ংক্রিয়ভাবে ফাইলটির নাম মূল পিডিএফ ফাইল হিসাবে একই নামের সাথে নাম লেখাবে তবে একটি টেক্সট এক্সটেনশন সহ। কমান্ডটি যুক্ত করা আকর্ষণীয় হতে পারে এমন আরেকটি জিনিস হ'ল প্রয়োজনে ফাইলের নামের আগে পাথ হবে (Doc / ডকুমেন্টস / পিডিএফ-ইনপুট.পিডিএফ).

কেবলমাত্র পিডিএফ পৃষ্ঠাগুলির একটি পরিসীমা পাঠ্যে রূপান্তর করুন

আমরা যদি পুরো পিডিএফ ফাইল রূপান্তর করতে আগ্রহী না হই, এবং আমরা চাই পাঠ্যে রূপান্তর করতে পিডিএফ পৃষ্ঠাগুলির একটি পরিসরকে সঙ্কুচিত করুন সেখানে হবে ব্যবহার -f বিকল্প (রূপান্তর করার জন্য প্রথম পৃষ্ঠা) Y -l (রূপান্তর করার জন্য শেষ পৃষ্ঠা) পৃষ্ঠা নম্বর সহ প্রতিটি বিকল্প অনুসরণ করে। কমান্ডটি নিম্নের মতো কিছু হবে:

pdftotext -layout -f P -l U pdf-entrada.pdf

পাঠ্য বিন্যাসে একটি পিডিএফ এর প্রদত্ত পৃষ্ঠাগুলির সংখ্যা সংরক্ষণ করুন

আগের কমান্ডে আপনাকে করতে হবে প্রথম এবং শেষ পৃষ্ঠাগুলির সাথে P এবং U বর্ণগুলি প্রতিস্থাপন করুন নিষ্কর্ষ. নাম পিডিএফ-ইনপুট.পিডিএফ আমাদের এটি পরিবর্তন করতে হবে এবং এটি পিডিএফ ফাইলের নাম দিতে হবে যার সাহায্যে আমরা কাজ করতে চাই।

লাইন-এর শেষের অক্ষরগুলি ব্যবহার করুন

এটি আমরা নির্দিষ্ট করতে সক্ষম হব ম্যাক, ডস বা ইউনিক্সের পরে -Eol ব্যবহার করুন। নিম্নলিখিত কমান্ডটি ইউনিক্স লাইনের শেষ যোগ করবে:

pdftotext -layout -eol unix pdf-entrada.pdf

সাহায্য

পাড়া উপলব্ধ বিকল্প চেক, ম্যান পৃষ্ঠাটি চালান:

মানুষ pdftotext

man pdftotext

আপনিও পারেন সহায়তা বিকল্পের পরামর্শ নিন আদেশ সহ:

সহায়তা কমান্ড pdftotext

pdftotext --help

ফ্যাস ফোল্ডার থেকে পিএসএফ ফাইলগুলি ব্যাশ ফর লুপ ব্যবহার করে রূপান্তর করুন

যদি আমরা ফোল্ডারে থাকা সমস্ত পিডিএফ ফাইলগুলি পাঠ্য ফাইলগুলিতে রূপান্তর করতে চাই, পিডিফটেক্সট পিডিএফ থেকে পাঠ্যে ব্যাচের রূপান্তরকে সমর্থন করে না। এই আমরা এটি ব্যাশ ফর লুপ ব্যবহার করে করতে সক্ষম হব টার্মিনালে (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

পাড়া pdftotext সম্পর্কে আরও তথ্য, আপনি পরামর্শ করতে পারেন প্রকল্প ওয়েবসাইট। আপনি যদি টার্মিনালে কমান্ড টাইপ না করতে পছন্দ করেন তবে আপনি এটিও করতে পারেন ব্যবহার করা অনলাইন পরিষেবা একই ফলাফল পেতে।


আপনার মন্তব্য দিন

আপনার ইমেল ঠিকানা প্রকাশিত হবে না। প্রয়োজনীয় ক্ষেত্রগুলি দিয়ে চিহ্নিত করা *

*

*

  1. ডেটার জন্য দায়বদ্ধ: মিগুয়েল অ্যাঞ্জেল গাটান
  2. ডেটার উদ্দেশ্য: নিয়ন্ত্রণ স্প্যাম, মন্তব্য পরিচালনা।
  3. আইনীকরণ: আপনার সম্মতি
  4. তথ্য যোগাযোগ: ডেটা আইনি বাধ্যবাধকতা ব্যতীত তৃতীয় পক্ষের কাছে জানানো হবে না।
  5. ডেটা স্টোরেজ: ওসেন্টাস নেটওয়ার্কস (ইইউ) দ্বারা হোস্ট করা ডেটাবেস
  6. অধিকার: যে কোনও সময় আপনি আপনার তথ্য সীমাবদ্ধ করতে, পুনরুদ্ধার করতে এবং মুছতে পারেন।

  1.   মাইফার নিগথক্রেলিন তিনি বলেন

    হ্যাঁ, এটি কার্যকরভাবে কাজ করে তবে কখনও কখনও আমাকে ওসিআর করতে হয় বা লিব্রে অফিস ড্র ব্যবহার করতে হয়।

    এছাড়াও অনেক পিডিএফ সম্পাদক রয়েছে। এবং দৃশ্যত চিত্রগুলির পাঠ্যের ক্ষেত্রে এটি ঘটে না, তাই আমি এটি ব্যবহারিক দেখছি না।

    এবং লিব্রে অফিস অঙ্কন স্বজ্ঞাত এবং ব্যবহারিক।