В следващата статия ще разгледаме pdftotext. Това е програма с команден ред с отворен код, която ще ни позволи конвертирате PDF файлове в обикновени текстови файлове. По принцип това, което прави, е да извлече текстовите данни от PDF файловете. Този софтуер е безплатен и е включен по подразбиране в много Gnu / Linux дистрибуции.
В следващите редове ще видим инструмент за терминала, но със същата цел за извличане на текст от PDF файлове можете да използвате и графичен инструмент като калибър. Заслужава да се отбележи, че както графичният инструмент, така и този, който можем да използваме в терминала, те не могат да извлекат текста, ако PDF е направен от изображения (фотографии, сканирани изображения на книги и др.).
В повечето Gnu / Linux дистрибуции, pdftotext е включен като част от пакета poppler-utils. Този инструмент е програма за команден ред, която конвертирате PDF файлове в обикновен текст. В него ще намерим много налични опции, включително възможността да посочим обхвата на страниците за конвертиране, възможността да запазим оригиналното физическо оформление на текста възможно най-добре, да зададем окончания на редове и дори да работим с PDF файлове, защитени с парола .
Инсталирайте pdftotext на Ubuntu
За да инсталирате този инструмент в нашата система Ubuntu, в случай че все още не сте го инсталирали, просто трябва да отворите терминал (Ctrl + Alt + T) и да напишете следната команда в него на инсталирайте poppler-utils:
sudo apt install poppler-utils
Как да използвам pdftotext
Конвертиране на PDF файл в текст
След като инсталираме пакета в нашата операционна система, можем да конвертираме PDF файл в обикновен текст. Мога опитайте се да запазите оригиналния дизайн, като използвате опцията -разпределение с командата, но можем да опитаме и без нея. В терминал (Ctrl + Alt + T) командата, която да се използва, ще бъде следната:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
В предишната команда трябваше да заменим pdf-input.pdf с името на PDF файла, който се интересуваме от конвертиране, и pdf-output.txt по името на TXT файла, в който искаме да запазим текста на входния PDF файл. Ако не посочим изходен текстов файл, pdftotext автоматично ще назове файла със същото име като оригиналния PDF файл, но с txt разширение. Друго нещо, което може да бъде интересно да се добави към командата, ще бъдат пътищата преди имената на файловете, ако е необходимо (~ / Documents / pdf-input.pdf).
Конвертирайте само набор от PDF страници в текст
Ако не се интересуваме от конвертиране на целия PDF файл и ние искаме стесни диапазон от PDF страници, за да ги конвертираш в текст ще има използвайте опцията -f (първа страница за конвертиране) Y -l (последна страница за конвертиране), последвано от всяка от опциите с номера на страницата. Командата, която да използвате, ще бъде нещо като следното:
pdftotext -layout -f P -l U pdf-entrada.pdf
В предишната команда ще трябва заменете буквите P и U с номерата на първата и последната страница да извлека. Името на pdf-input.pdf Също така ще трябва да го променим и да му дадем името на PDF файла, с който искаме да работим.
Използвайте символи в края на реда
Това ще можем да уточним използване на -eol, последвано от mac, dos или unix. Следващата команда ще добави окончания на ред на Unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Помощ
за проверете наличните опции, стартирайте ръководството:
man pdftotext
Можете също така консултирайте се с опцията за помощ с командата:
pdftotext --help
Конвертирайте PDF файлове от папка с помощта на цикъл Bash FOR
В случай, че искаме да конвертираме всички PDF файлове в папка в текстови файлове, pdftotext не поддържа пакетно преобразуване от PDF в текст. Това ще можем да го направим с помощта на цикъл Bash FOR в терминала (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
за повече информация за pdftotext, можете да се консултирате с уебсайт на проекта. В случай, че предпочитате да не се налага да пишете команди в терминала, можете също използвайте a онлайн услуга за да получите същия резултат.
да, добре работи, но понякога трябва да направя OCR или да използвам Libre Office Draw.
В допълнение има много pdf редактори. и очевидно това не се случва с текст на изображенията, така че не го виждам практично.
А Libre Office Draw е интуитивен и практичен.