У наступній статті ми збираємось поглянути на pdftotext. Це утиліта командного рядка з відкритим кодом, яка дозволить нам це зробити конвертувати файли PDF у текстові файли. В основному він робить витяг текстових даних із файлів PDF. Це програмне забезпечення є безкоштовним і за замовчуванням входить до складу багатьох дистрибутивів Gnu / Linux.
У наступних рядках ми побачимо інструмент для терміналу, але з тією ж метою для вилучення тексту з файлів PDF Ви також можете використовувати графічний інструмент, такий як калібр. Варто зазначити, що як графічний інструмент, так і той, який ми можемо використовувати в терміналі, вони не можуть витягти текст, якщо PDF складається із зображень (фотографії, відскановані зображення книг тощо.).
У більшості дистрибутивів Gnu / Linux, pdftotext є частиною пакету poppler-utils. Цей інструмент є утилітою командного рядка, яка конвертувати файли PDF у звичайний текст. У ньому ми знайдемо багато доступних опцій, зокрема можливість вказати діапазон сторінок для перетворення, можливість зберегти оригінальний фізичний макет тексту якнайкраще, встановити закінчення рядків і навіть працювати із захищеними паролем файлами PDF .
Встановіть pdftotext на Ubuntu
Щоб встановити цей інструмент в нашій системі Ubuntu, якщо у вас його ще не встановлено, вам просто потрібно відкрити термінал (Ctrl + Alt + T) і написати в ньому таку команду в встановіть poppler-utils:
sudo apt install poppler-utils
Як користуватися pdftotext
Перетворити PDF-файл на текст
Після встановлення пакету в нашій операційній системі ми можемо перетворити файл PDF у звичайний текст. Можна намагайтеся зберегти оригінальний дизайн, використовуючи опцію -розклад з командою, але ми можемо спробувати і без неї. У терміналі (Ctrl + Alt + T) команда, яку слід використовувати, буде такою:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
У попередній команді нам довелося б замінити pdf-input.pdf з назвою файлу PDF, який ми зацікавлені в конвертації, та pdf-output.txt за назвою файлу TXT, в якому ми хочемо зберегти текст вхідного файлу PDF. Якщо ми не вкажемо жодного вихідного текстового файлу, pdftotext буде автоматично називати файл із тим самим іменем, що й оригінальний файл PDF, але з розширенням txt. Інша річ, яку можна цікаво додати до команди, - це шляхи перед іменами файлів, якщо це необхідно (~ / Documents / pdf-input.pdf).
Перетворити лише ряд сторінок PDF у текст
Якщо ми не зацікавлені в перетворенні всього файлу PDF, і ми хочемо звузити діапазон сторінок PDF для перетворення в текст буде використовувати параметр -f (перша сторінка для перетворення) А -l (остання сторінка для перетворення), а потім кожен варіант із номером сторінки. Команда, яку слід використовувати, буде приблизно такою:
pdftotext -layout -f P -l U pdf-entrada.pdf
У попередній команді вам доведеться замініть літери P та U на першу та останню номери сторінок добувати. Ім'я pdf-input.pdf Також нам доведеться змінити його та назвати ім’ям файлу PDF, з яким ми хочемо працювати.
Використовуйте символи кінця рядка
Це ми зможемо вказати використовуючи -eol, за яким слід mac, dos або unix. Наступна команда додасть закінчення рядків unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Допоможіть
в перевірити доступні варіанти, запустіть man-сторінку:
man pdftotext
Ви також можете зверніться до варіанту довідки за командою:
pdftotext --help
Перетворюйте файли PDF з папки за допомогою циклу Bash FOR
Якщо ми хочемо перетворити всі файли PDF у папці у текстові файли, pdftotext не підтримує пакетне перетворення з PDF в текст. Це ми зможемо це зробити, використовуючи цикл Bash FOR в терміналі (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
в більше інформації про pdftotext, Ви можете проконсультуватися з веб-сайт проекту. Якщо ви вважаєте за краще не вводити команди в терміналі, ви можете також використовувати a онлайн-служби щоб отримати той самий результат.
так, добре, це працює, але іноді мені доводиться робити OCR або використовувати Libre Office Draw.
Крім того, існує безліч редакторів PDF. і, мабуть, цього не відбувається з текстом зображень, тому я не бачу це практичним.
А Libre Office Draw - інтуїтивно зрозумілий та практичний.