Пдфтотект, претворите ПДФ у текст с терминала

о пдфтотексту

У следећем чланку ћемо погледати пдфтотект. Ово је услужни програм командне линије отвореног кода који ће нам то омогућити претворити ПДФ датотеке у обичне текстуалне датотеке. У основи је извлачење текстуалних података из ПДФ датотека. Овај софтвер је бесплатан и подразумевано је укључен у многе Гну / Линук дистрибуције.

У следећим редовима видећемо алат за терминал, али у исту сврху за издвајање текста из ПДФ датотека можете користити и графички алат попут калибар. Вреди напоменути да и графички алат и онај који можемо користити у терминалу, не могу да издвоје текст ако је ПДФ направљен од слика (фотографије, скениране слике књига итд.).

На већини Гну / Линук дистрибуција, пдфтотект је укључен као део попплер-утилс пакета. Овај алат је услужни програм командне линије који претворити ПДФ датотеке у обичан текст. У њему ћемо пронаћи много доступних опција, укључујући могућност одређивања опсега страница за конверзију, способност задржавања оригиналног физичког изгледа текста што је могуће бољи, постављање завршетака линија, па чак и рад са ПДФ датотекама заштићеним лозинком .

о уклањању познате лозинке из пдф-а
Повезани чланак:
Уклоните познату лозинку из ПДФ датотеке у Убуту

Инсталирајте пдфтотект на Убунту

Да бисте инсталирали овај алат на наш Убунту систем, у случају да га већ немате, само морате отворити терминал (Цтрл + Алт + Т) и у њега написати следећу команду у инсталирајте попплер-утилс:

инсталирајте попплер утилс

sudo apt install poppler-utils

Како се користи пдфтотект

Претворите ПДФ датотеку у текст

Једном када пакет инсталирамо у наш оперативни систем, можемо ПДФ датотеку претворити у обичан текст. Моћи покушајте да задржите оригинални дизајн користећи опцију -састав са командом, али можемо и без ње. У терминалу (Цтрл + Алт + Т) наредба коју треба користити била би следећа:

пдфтотект претвори пдф у обичан текст

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

У претходној команди морали бисмо да заменимо пдф-инпут.пдф са именом ПДФ датотеке коју смо заинтересовани за конверзију и пдф-оутпут.ткт именом ТКСТ датотеке у коју желимо да сачувамо текст улазне ПДФ датотеке. Ако не одредимо ниједну излазну текстуалну датотеку, пдфтотект ће аутоматски именовати датотеку са истим именом као оригинална ПДФ датотека, али са ткт наставком. Још једна ствар коју може бити занимљиво додати команди биће путање испред имена датотека ако је потребно (~ / Доцументс / пдф-инпут.пдф).

Претворите у текст само низ ПДФ страница

Ако нисмо заинтересовани за конверзију целокупне ПДФ датотеке, а желимо сузите распон ПДФ страница за претварање у текст тамо ће да буде користите опцију -ф (прва страница за конверзију) И -l (последња страница за конверзију), а затим свака опција са бројем странице. Команда за употребу била би отприлике следећа:

pdftotext -layout -f P -l U pdf-entrada.pdf

сачувајте у текстуалном формату задати број страница пдф-а

У претходној команди мораћете замените слова П и У бројевима прве и последње странице извући. Име пдф-инпут.пдф Такође ћемо га морати променити и дати му име ПДФ датотеке са којом желимо да радимо.

Користите знакове на крају реда

Ово ћемо моћи да одредимо коришћење -еол праћено мац, дос или уник. Следећа наредба ће додати уник завршетке линија:

pdftotext -layout -eol unix pdf-entrada.pdf

Упомоћ

у проверите доступне опције, покрените ман страницу:

човек пдфтотект

man pdftotext

Можеш и ти консултујте опцију помоћи са наредбом:

наредба за помоћ пдфтотект

pdftotext --help

Претворите ПДФ датотеке из директоријума помоћу петље Басх ФОР

У случају да желимо да претворимо све ПДФ датотеке у фасцикли у текстуалне датотеке, пдфтотект не подржава групну конверзију из ПДФ-а у текст. Ово то ћемо моћи да урадимо користећи петљу Басх ФОР у терминалу (Цтрл + Алт + Т):

for file in *.pdf; do pdftotext -layout "$file"; done

у више информација о пдфтотект-у, можете консултовати веб локација пројекта. У случају да више не желите да укуцате команде у терминалу, такође можете користи онлине услуга да би се добио исти резултат.


Оставите свој коментар

Ваша емаил адреса неће бити објављена. Обавезна поља су означена са *

*

*

  1. За податке одговоран: Мигуел Ангел Гатон
  2. Сврха података: Контрола нежељене поште, управљање коментарима.
  3. Легитимација: Ваш пристанак
  4. Комуникација података: Подаци се неће преносити трећим лицима, осим по законској обавези.
  5. Похрана података: База података коју хостује Оццентус Нетворкс (ЕУ)
  6. Права: У било ком тренутку можете ограничити, опоравити и избрисати своје податке.

  1.   Моипхер Нигтхкрелин дијо

    да, добро то функционише, али понекад морам да урадим ОЦР или да користим Либре Оффице Драв.

    Поред тога, постоји много пдф уредника. и очигледно се то не дешава са текстом на сликама, па то не видим практично.

    А Либре Оффице Драв је интуитиван и практичан.