Pdftotext, cunvertisce un PDF in testu da u terminal

circa pdftotext

In u prossimu articulu emu da piglià un ochju à pdftotext. Questa hè una utilità di linea di cummanda open source chì ci permetterà cunvertisce i fugliali PDF in fugliali di testu chjaru. Fondamentalmente ciò chì face hè di estrarre i dati di testu da i fugliali PDF. Stu software hè liberu è hè inclusu per difettu in parechje distribuzioni Gnu / Linux.

In e seguenti linee avemu da vede un strumentu per u terminal, ma per u listessu scopu di estrarre testu da i fugliali PDF pudete ancu aduprà un strumentu graficu cum'è Calibre. Hè nutate chì sia l'uttellu graficu sia quellu chì pudemu aduprà in u terminal, ùn ponu micca estrarre u testu se u PDF hè fattu di immagini (ritratti, imaghjini di libri scannati, ecc.).

In a maiò parte di e distribuzioni Gnu / Linux, pdftotext hè inclusu cum'è parte di u pacchettu poppler-utils. Questu strumentu hè una utilità di linea di cummanda chì cunvertisce i fugliali PDF in testu chjaru. In questu truveremu parechje opzioni dispunibili, cumpresa a capacità di specificà a gamma di pagine da cunvertisce, a capacità di mantene a disposizione fisica originale di u testu u megliu pussibule, stabilisce e finizioni di linea, è ancu travaglià cù i fugliali PDF prutetti da password .

circa sguassà una password cunnisciuta da un pdf
Articulu ligatu:
Eliminà una password cunnisciuta da un schedariu PDF in Ubutu

Installa pdftotext in Ubuntu

Per installà questu strumentu nantu à u nostru sistema Ubuntu, in casu chì ùn l'avete micca dighjà installatu, basta à apre un terminal (Ctrl + Alt + T) è scrive u cumandimu seguente in stallà poppler-utils:

installate poppler utils

sudo apt install poppler-utils

Cumu aduprà pdftotext

Cunvertisce un fugliale PDF in testu

Una volta chì avemu u pacchettu installatu nantu à u nostru sistema operativu, pudemu cunvertisce un fugliale PDF in testu chjaru. Can pruvate à mantene u disignu uriginale cù l'opzione -prezzione cù u cumandamentu, ma pudemu ancu pruvà senza ellu. In un terminal (Ctrl + Alt + T) u cumandimu da aduprà seria u seguente:

pdftotext cunvertisce pdf in testu chjaru

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

In u cumandimu precedente duveriamu rimpiazzà pdf-input.pdf cù u nome di u schedariu PDF chì ci interessa cunvertisce, è pdf-output.txt cù u nome di u fugliale TXT in quale vulemu salvà u testu di u fugliale PDF in entrata. Se ùn specificemu micca un fugliale di testu, pdftotext numinerà automaticamente u fugliale cù u listessu nome cum'è u fugliale PDF originale ma cù una estensione txt. Un'altra cosa chì pò esse interessante da aghjunghje à u cumandamentu serà i percorsi davanti à i nomi di fugliali se necessariu~ / Documents / pdf-input.pdf).

Cunvertisce solu un intervallu di pagine PDF in testu

Se ùn simu micca interessati à cunvertisce tuttu u fugliale PDF, è vulemu restringe una gamma di pagine PDF per cunvertisce in testu ci serà aduprà l'opzione -f (prima pagina da cunvertisce) è -l (ultima pagina da cunvertisce) seguitatu da ogni opzione cù u numeru di pagina. U cumandamentu da aduprà seria qualcosa cum'è u seguitu:

pdftotext -layout -f P -l U pdf-entrada.pdf

salvà in furmatu di testu un numeru datu di pagine di un pdf

In u cumandimu precedente duverete rimpiazzate e lettere P è U cù u primu è l'ultimu numaru di pagina per estrà. U nome di pdf-input.pdf Duvemu ancu cambialu è dalli u nome di u schedariu PDF cù u quale vulemu travaglià.

Aduprate caratteri di fine di linea

Questu pudemu specificà aduprendu -eol seguitatu da mac, dos o unix. U cumandimu seguitu aghjunghjera i linii unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Aiutu

sobre verificate l'opzioni dispunibili, eseguite a pagina man:

omu pdftotext

man pdftotext

Pudete ancu dinò cunsultate l'opzione d'aiutu cù u cumandimu:

aiutà cumanda pdftotext

pdftotext --help

Cunvertisce i fugliali PDF da un cartulare cù un loop Bash FOR

In casu chì vulemu cunvertisce tutti i fugliali PDF in un cartulare in fugliali di testu, pdftotext ùn sustene micca a cunversione batch da PDF in testu. Questu seremu in gradu di fà la cù un ciclu Bash FOR in u terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

sobre più infurmazione nantu à pdftotext, pudete cunsultà u situ di u prugettu. In casu chì preferite micca avè da scrive cumandamenti in u terminal, pudete ancu aduprà a un serviziu in linea pè ottene u listessu risultatu.


U cuntenutu di l'articulu aderisce à i nostri principii di etica edituriale. Per signalà un errore cliccate quì.

Un cummentariu, lasciate u vostru

Lasciate u vostru cummentariu

U vostru indirizzu email ùn esse publicatu. campi, nicissarii sò marcati cù *

*

*

  1. Responsabile di i dati: Miguel Ángel Gatón
  2. Scopu di i dati: Cuntrolla SPAM, gestione di cumenti.
  3. Legitimazione: U vostru accunsentu
  4. Cumunicazione di i dati: I dati ùn seranu micca cumunicati à terzi, eccettu per obbligazione legale.
  5. Archiviazione di dati: Base di dati ospitata da Occentus Networks (UE)
  6. Diritti: In ogni mumentu pudete limità, recuperà è cancellà e vostre informazioni.

  1.   Moypher Nightkrelin dijo

    ié, bè funziona, ma qualchì volta devu fà OCR o aduprà Libre Office Draw.

    Inoltre ci sò parechji editori pdf. è apparentemente questu ùn accade micca di mandà testu à l'imaghjini, allora ùn lu vecu micca praticu.

    È Libre Office Draw hè intuitivu è praticu.