Pdftotext, конвертирайте PDF в текст от терминала

за pdftotext

В следващата статия ще разгледаме pdftotext. Това е програма с команден ред с отворен код, която ще ни позволи конвертирате PDF файлове в обикновени текстови файлове. По принцип това, което прави, е да извлече текстовите данни от PDF файловете. Този софтуер е безплатен и е включен по подразбиране в много Gnu / Linux дистрибуции.

В следващите редове ще видим инструмент за терминала, но със същата цел за извличане на текст от PDF файлове можете да използвате и графичен инструмент като калибър. Заслужава да се отбележи, че както графичният инструмент, така и този, който можем да използваме в терминала, те не могат да извлекат текста, ако PDF е направен от изображения (фотографии, сканирани изображения на книги и др.).

В повечето Gnu / Linux дистрибуции, pdftotext е включен като част от пакета poppler-utils. Този инструмент е програма за команден ред, която конвертирате PDF файлове в обикновен текст. В него ще намерим много налични опции, включително възможността да посочим обхвата на страниците за конвертиране, възможността да запазим оригиналното физическо оформление на текста възможно най-добре, да зададем окончания на редове и дори да работим с PDF файлове, защитени с парола .

за премахване на известна парола от pdf
Свързана статия:
Премахнете известна парола от PDF файл в Ubutu

Инсталирайте pdftotext на Ubuntu

За да инсталирате този инструмент в нашата система Ubuntu, в случай че все още не сте го инсталирали, просто трябва да отворите терминал (Ctrl + Alt + T) и да напишете следната команда в него на инсталирайте poppler-utils:

инсталирайте poppler utils

sudo apt install poppler-utils

Как да използвам pdftotext

Конвертиране на PDF файл в текст

След като инсталираме пакета в нашата операционна система, можем да конвертираме PDF файл в обикновен текст. Мога опитайте се да запазите оригиналния дизайн, като използвате опцията -разпределение с командата, но можем да опитаме и без нея. В терминал (Ctrl + Alt + T) командата, която да се използва, ще бъде следната:

pdftotext конвертира pdf в обикновен текст

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

В предишната команда трябваше да заменим pdf-input.pdf с името на PDF файла, който се интересуваме от конвертиране, и pdf-output.txt по името на TXT файла, в който искаме да запазим текста на входния PDF файл. Ако не посочим изходен текстов файл, pdftotext автоматично ще назове файла със същото име като оригиналния PDF файл, но с txt разширение. Друго нещо, което може да бъде интересно да се добави към командата, ще бъдат пътищата преди имената на файловете, ако е необходимо (~ / Documents / pdf-input.pdf).

Конвертирайте само набор от PDF страници в текст

Ако не се интересуваме от конвертиране на целия PDF файл и ние искаме стесни диапазон от PDF страници, за да ги конвертираш в текст ще има използвайте опцията -f (първа страница за конвертиране) Y -l (последна страница за конвертиране), последвано от всяка от опциите с номера на страницата. Командата, която да използвате, ще бъде нещо като следното:

pdftotext -layout -f P -l U pdf-entrada.pdf

запишете в текстов формат определен брой страници на pdf

В предишната команда ще трябва заменете буквите P и U с номерата на първата и последната страница да извлека. Името на pdf-input.pdf Също така ще трябва да го променим и да му дадем името на PDF файла, с който искаме да работим.

Използвайте символи в края на реда

Това ще можем да уточним използване на -eol, последвано от mac, dos или unix. Следващата команда ще добави окончания на ред на Unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Помощ

за проверете наличните опции, стартирайте ръководството:

човек pdftotext

man pdftotext

Можете също така консултирайте се с опцията за помощ с командата:

команда за помощ pdftotext

pdftotext --help

Конвертирайте PDF файлове от папка с помощта на цикъл Bash FOR

В случай, че искаме да конвертираме всички PDF файлове в папка в текстови файлове, pdftotext не поддържа пакетно преобразуване от PDF в текст. Това ще можем да го направим с помощта на цикъл Bash FOR в терминала (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

за повече информация за pdftotext, можете да се консултирате с уебсайт на проекта. В случай, че предпочитате да не се налага да пишете команди в терминала, можете също използвайте a онлайн услуга за да получите същия резултат.


Оставете вашия коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

*

*

  1. Отговорен за данните: Мигел Анхел Гатон
  2. Предназначение на данните: Контрол на СПАМ, управление на коментари.
  3. Легитимация: Вашето съгласие
  4. Съобщаване на данните: Данните няма да бъдат съобщени на трети страни, освен по законово задължение.
  5. Съхранение на данни: База данни, хоствана от Occentus Networks (ЕС)
  6. Права: По всяко време можете да ограничите, възстановите и изтриете информацията си.

  1.   Мойфер Нигкреклин каза той

    да, добре работи, но понякога трябва да направя OCR или да използвам Libre Office Draw.

    В допълнение има много pdf редактори. и очевидно това не се случва с текст на изображенията, така че не го виждам практично.

    А Libre Office Draw е интуитивен и практичен.