Pdftotext, конвертувати PDF в текст із терміналу

про pdftotext

У наступній статті ми збираємось поглянути на pdftotext. Це утиліта командного рядка з відкритим кодом, яка дозволить нам це зробити конвертувати файли PDF у текстові файли. В основному він робить витяг текстових даних із файлів PDF. Це програмне забезпечення є безкоштовним і за замовчуванням входить до складу багатьох дистрибутивів Gnu / Linux.

У наступних рядках ми побачимо інструмент для терміналу, але з тією ж метою для вилучення тексту з файлів PDF Ви також можете використовувати графічний інструмент, такий як калібр. Варто зазначити, що як графічний інструмент, так і той, який ми можемо використовувати в терміналі, вони не можуть витягти текст, якщо PDF складається із зображень (фотографії, відскановані зображення книг тощо.).

У більшості дистрибутивів Gnu / Linux, pdftotext є частиною пакету poppler-utils. Цей інструмент є утилітою командного рядка, яка конвертувати файли PDF у звичайний текст. У ньому ми знайдемо багато доступних опцій, зокрема можливість вказати діапазон сторінок для перетворення, можливість зберегти оригінальний фізичний макет тексту якнайкраще, встановити закінчення рядків і навіть працювати із захищеними паролем файлами PDF .

про видалення відомого пароля з pdf
Пов'язана стаття:
Видаліть відомий пароль із файлу PDF в Ubutu

Встановіть pdftotext на Ubuntu

Щоб встановити цей інструмент в нашій системі Ubuntu, якщо у вас його ще не встановлено, вам просто потрібно відкрити термінал (Ctrl + Alt + T) і написати в ньому таку команду в встановіть poppler-utils:

встановити утиліти poppler - -

sudo apt install poppler-utils

Як користуватися pdftotext

Перетворити PDF-файл на текст

Після встановлення пакету в нашій операційній системі ми можемо перетворити файл PDF у звичайний текст. Можна намагайтеся зберегти оригінальний дизайн, використовуючи опцію -розклад з командою, але ми можемо спробувати і без неї. У терміналі (Ctrl + Alt + T) команда, яку слід використовувати, буде такою:

pdftotext перетворити pdf на звичайний текст

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

У попередній команді нам довелося б замінити pdf-input.pdf з назвою файлу PDF, який ми зацікавлені в конвертації, та pdf-output.txt за назвою файлу TXT, в якому ми хочемо зберегти текст вхідного файлу PDF. Якщо ми не вкажемо жодного вихідного текстового файлу, pdftotext буде автоматично називати файл із тим самим іменем, що й оригінальний файл PDF, але з розширенням txt. Інша річ, яку можна цікаво додати до команди, - це шляхи перед іменами файлів, якщо це необхідно (~ / Documents / pdf-input.pdf).

Перетворити лише ряд сторінок PDF у текст

Якщо ми не зацікавлені в перетворенні всього файлу PDF, і ми хочемо звузити діапазон сторінок PDF для перетворення в текст буде використовувати параметр -f (перша сторінка для перетворення) А -l (остання сторінка для перетворення), а потім кожен варіант із номером сторінки. Команда, яку слід використовувати, буде приблизно такою:

pdftotext -layout -f P -l U pdf-entrada.pdf

зберегти в текстовому форматі задану кількість сторінок pdf

У попередній команді вам доведеться замініть літери P та U на першу та останню номери сторінок добувати. Ім'я pdf-input.pdf Також нам доведеться змінити його та назвати ім’ям файлу PDF, з яким ми хочемо працювати.

Використовуйте символи кінця рядка

Це ми зможемо вказати використовуючи -eol, за яким слід mac, dos або unix. Наступна команда додасть закінчення рядків unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Допоможіть

в перевірити доступні варіанти, запустіть man-сторінку:

людина pdftotext

man pdftotext

Ви також можете зверніться до варіанту довідки за командою:

команда довідки pdftotext

pdftotext --help

Перетворюйте файли PDF з папки за допомогою циклу Bash FOR

Якщо ми хочемо перетворити всі файли PDF у папці у текстові файли, pdftotext не підтримує пакетне перетворення з PDF в текст. Це ми зможемо це зробити, використовуючи цикл Bash FOR в терміналі (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

в більше інформації про pdftotext, Ви можете проконсультуватися з веб-сайт проекту. Якщо ви вважаєте за краще не вводити команди в терміналі, ви можете також використовувати a онлайн-служби щоб отримати той самий результат.


Залиште свій коментар

Ваша електронна адреса не буде опублікований. Обов'язкові для заповнення поля позначені *

*

*

  1. Відповідальний за дані: Мігель Анхель Гатон
  2. Призначення даних: Контроль спаму, управління коментарями.
  3. Легітимація: Ваша згода
  4. Передача даних: Дані не передаватимуться третім особам, за винятком юридичних зобов’язань.
  5. Зберігання даних: База даних, розміщена в мережі Occentus Networks (ЄС)
  6. Права: Ви можете будь-коли обмежити, відновити та видалити свою інформацію.

  1.   Мойфер Нігткрелін - сказав він

    так, добре, це працює, але іноді мені доводиться робити OCR або використовувати Libre Office Draw.

    Крім того, існує безліч редакторів PDF. і, мабуть, цього не відбувається з текстом зображень, тому я не бачу це практичним.

    А Libre Office Draw - інтуїтивно зрозумілий та практичний.