En el següent article anem a fer una ullada a pdftotext. Aquesta és una utilitat per a la línia d'ordres de codi obert que ens permetrà convertir arxius PDF a arxius de text simple. Bàsicament el que fa és extreure les dades de text dels arxius PDF. Aquest programari és gratuït i s'inclou per defecte en moltes distribucions GNU / Linux.
En les següents línies veurem una eina per a la terminal, però per al mateix propòsit d'extreure el text dels arxius PDF també es pot utilitzar una eina gràfica com calibre. Val la pena assenyalar que tant l'eina gràfica com la que podem utilitzar a la terminal, no poden extreure el text si el PDF està fet d'imatges (fotografies, imatges de llibres escanejats, etc).
En la majoria de les distribucions de GNU / Linux, pdftotext està inclòs com a part de l'paquet Poppler-utils. Aquesta eina és una utilitat de línia de comandes que converteix arxius PDF a text sense format. Hi trobarem moltes opcions disponibles, incloent-hi la capacitat d'especificar el rang de pàgines per convertir, la possibilitat de mantenir el disseny físic original de el text el millor possible, establir finals de línia i fins i tot treballar amb arxius PDF protegits amb una contrasenya.
Instal·lar pdftotext en Ubuntu
Per instal·lar aquesta eina en el nostre sistema Ubuntu, en cas que no el tinguis ja instal·lat, no hi haurà més que obrir una terminal (Ctrl + Alt + T) i escriure-hi la següent comanda per instal·lar Poppler-utils:
sudo apt install poppler-utils
Com utilitzar pdftotext
Converteix un arxiu PDF a text
Un cop tenim el paquet instal·lat en el nostre sistema operatiu, ja podem convertir un arxiu PDF a text sense format. podem intentar mantenir el disseny original utilitzant l'opció - maquetació amb la comanda, però també podem intentar-sense. En una terminal (Ctrl + Alt + T) la comanda a utilitzar seria el següent:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
En l'anterior comando s'hauria de canviar pdf-entrada.pdf amb el nom de l'arxiu PDF que ens interessi convertir, i pdf-sortida.txt pel nom de l'arxiu TXT en què vulguem guardar el text de l'arxiu PDF d'entrada. Si no especifiquem cap fitxer de text de sortida, pdftotext va nomenar l'arxiu de forma automàtica amb el mateix nom que l'arxiu PDF original però amb extensió txt. Una altra cosa que pot resultar interessant afegir a la comanda seran les rutes abans dels noms dels fitxer si cal (~ / Documents / pdf-entrada.pdf).
Convertir només un rang de pàgines de el PDF a text
Si no ens interessa convertir tot l'arxiu PDF, i volem acotar un rang de pàgines de el PDF a convertir en text caldrà utilitzar l'opció -f (primera pàgina per convertir) I -l (última pàgina per convertir) Seguida cadascuna de les opcions amb el número de la pàgina. La comanda a utilitzar seria alguna cosa com el següent:
pdftotext -layout -f P -l U pdf-entrada.pdf
En l'anterior comando caldrà reemplaçar les lletres P i U amb el primer i últim número de pàgina per extreure. El nom de pdf-entrada.pdf també haurem de canviar-lo i donar-li el nom de l'arxiu PDF amb el qual volem treballar.
Utilitzar caràcters de final de línia
Això anem a poder especificar- usant -eol seguit de mac, dues o unix. El següent comanda s'afegirà terminacions de línies unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Ajuda
Per a la consultar les opcions disponibles, Executa la pàgina de manual:
man pdftotext
També es pot consultar l'opció d'ajuda amb la comanda:
pdftotext --help
Convertir els arxius PDF d'una carpeta utilitzant un bucle Bash FOR
En cas que vulguem convertir tots els arxius PDF d'una carpeta a arxius de text, pdftotext no admet la conversió per lots de PDF a text. Això anem a poder fer-ho utilitzant un bucle Bash FOR a la terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
Per a la més informació sobre pdftotext, Es pot consultar la pàgina web de el projecte. En cas que prefereixis no haver d'escriure ordres a la terminal, també es pot utilitzar un servei en línia per obtenir el mateix resultat.
si, bé serveix, però a vegades he de fer OCR o utilitzar el Libre Office Draw.
A més hi ha molts editors de pdf. i a l'sembla aquest no passa a texo la imatges, per això no ho veig pràctic.
I Lliure Office Draw és intuïtiu i pràctic.