In u prossimu articulu emu da piglià un ochju à pdftotext. Questa hè una utilità di linea di cummanda open source chì ci permetterà cunvertisce i fugliali PDF in fugliali di testu chjaru. Fondamentalmente ciò chì face hè di estrarre i dati di testu da i fugliali PDF. Stu software hè liberu è hè inclusu per difettu in parechje distribuzioni Gnu / Linux.
In e seguenti linee avemu da vede un strumentu per u terminal, ma per u listessu scopu di estrarre testu da i fugliali PDF pudete ancu aduprà un strumentu graficu cum'è Calibre. Hè nutate chì sia l'uttellu graficu sia quellu chì pudemu aduprà in u terminal, ùn ponu micca estrarre u testu se u PDF hè fattu di immagini (ritratti, imaghjini di libri scannati, ecc.).
In a maiò parte di e distribuzioni Gnu / Linux, pdftotext hè inclusu cum'è parte di u pacchettu poppler-utils. Questu strumentu hè una utilità di linea di cummanda chì cunvertisce i fugliali PDF in testu chjaru. In questu truveremu parechje opzioni dispunibili, cumpresa a capacità di specificà a gamma di pagine da cunvertisce, a capacità di mantene a disposizione fisica originale di u testu u megliu pussibule, stabilisce e finizioni di linea, è ancu travaglià cù i fugliali PDF prutetti da password .
Index
Installa pdftotext in Ubuntu
Per installà questu strumentu nantu à u nostru sistema Ubuntu, in casu chì ùn l'avete micca dighjà installatu, basta à apre un terminal (Ctrl + Alt + T) è scrive u cumandimu seguente in stallà poppler-utils:
sudo apt install poppler-utils
Cumu aduprà pdftotext
Cunvertisce un fugliale PDF in testu
Una volta chì avemu u pacchettu installatu nantu à u nostru sistema operativu, pudemu cunvertisce un fugliale PDF in testu chjaru. Can pruvate à mantene u disignu uriginale cù l'opzione -prezzione cù u cumandamentu, ma pudemu ancu pruvà senza ellu. In un terminal (Ctrl + Alt + T) u cumandimu da aduprà seria u seguente:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
In u cumandimu precedente duveriamu rimpiazzà pdf-input.pdf cù u nome di u schedariu PDF chì ci interessa cunvertisce, è pdf-output.txt cù u nome di u fugliale TXT in quale vulemu salvà u testu di u fugliale PDF in entrata. Se ùn specificemu micca un fugliale di testu, pdftotext numinerà automaticamente u fugliale cù u listessu nome cum'è u fugliale PDF originale ma cù una estensione txt. Un'altra cosa chì pò esse interessante da aghjunghje à u cumandamentu serà i percorsi davanti à i nomi di fugliali se necessariu~ / Documents / pdf-input.pdf).
Cunvertisce solu un intervallu di pagine PDF in testu
Se ùn simu micca interessati à cunvertisce tuttu u fugliale PDF, è vulemu restringe una gamma di pagine PDF per cunvertisce in testu ci serà aduprà l'opzione -f (prima pagina da cunvertisce) è -l (ultima pagina da cunvertisce) seguitatu da ogni opzione cù u numeru di pagina. U cumandamentu da aduprà seria qualcosa cum'è u seguitu:
pdftotext -layout -f P -l U pdf-entrada.pdf
In u cumandimu precedente duverete rimpiazzate e lettere P è U cù u primu è l'ultimu numaru di pagina per estrà. U nome di pdf-input.pdf Duvemu ancu cambialu è dalli u nome di u schedariu PDF cù u quale vulemu travaglià.
Aduprate caratteri di fine di linea
Questu pudemu specificà aduprendu -eol seguitatu da mac, dos o unix. U cumandimu seguitu aghjunghjera i linii unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Aiutu
sobre verificate l'opzioni dispunibili, eseguite a pagina man:
man pdftotext
Pudete ancu dinò cunsultate l'opzione d'aiutu cù u cumandimu:
pdftotext --help
Cunvertisce i fugliali PDF da un cartulare cù un loop Bash FOR
In casu chì vulemu cunvertisce tutti i fugliali PDF in un cartulare in fugliali di testu, pdftotext ùn sustene micca a cunversione batch da PDF in testu. Questu seremu in gradu di fà la cù un ciclu Bash FOR in u terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
sobre più infurmazione nantu à pdftotext, pudete cunsultà u situ di u prugettu. In casu chì preferite micca avè da scrive cumandamenti in u terminal, pudete ancu aduprà a un serviziu in linea pè ottene u listessu risultatu.
Un cummentariu, lasciate u vostru
ié, bè funziona, ma qualchì volta devu fà OCR o aduprà Libre Office Draw.
Inoltre ci sò parechji editori pdf. è apparentemente questu ùn accade micca di mandà testu à l'imaghjini, allora ùn lu vecu micca praticu.
È Libre Office Draw hè intuitivu è praticu.