Pdftotext, converteix un PDF a text des de la terminal

about pdftotext

En el següent article anem a fer una ullada a pdftotext. Aquesta és una utilitat per a la línia d'ordres de codi obert que ens permetrà convertir arxius PDF a arxius de text simple. Bàsicament el que fa és extreure les dades de text dels arxius PDF. Aquest programari és gratuït i s'inclou per defecte en moltes distribucions GNU / Linux.

En les següents línies veurem una eina per a la terminal, però per al mateix propòsit d'extreure el text dels arxius PDF també es pot utilitzar una eina gràfica com calibre. Val la pena assenyalar que tant l'eina gràfica com la que podem utilitzar a la terminal, no poden extreure el text si el PDF està fet d'imatges (fotografies, imatges de llibres escanejats, etc).

En la majoria de les distribucions de GNU / Linux, pdftotext està inclòs com a part de l'paquet Poppler-utils. Aquesta eina és una utilitat de línia de comandes que converteix arxius PDF a text sense format. Hi trobarem moltes opcions disponibles, incloent-hi la capacitat d'especificar el rang de pàgines per convertir, la possibilitat de mantenir el disseny físic original de el text el millor possible, establir finals de línia i fins i tot treballar amb arxius PDF protegits amb una contrasenya.

about treure una clau coneguda d'un pdf
Article relacionat:
Treure una clau coneguda d'un arxiu PDF en Ubutu

Instal·lar pdftotext en Ubuntu

Per instal·lar aquesta eina en el nostre sistema Ubuntu, en cas que no el tinguis ja instal·lat, no hi haurà més que obrir una terminal (Ctrl + Alt + T) i escriure-hi la següent comanda per instal·lar Poppler-utils:

instal·lar Poppler utils

sudo apt install poppler-utils

Com utilitzar pdftotext

Converteix un arxiu PDF a text

Un cop tenim el paquet instal·lat en el nostre sistema operatiu, ja podem convertir un arxiu PDF a text sense format. podem intentar mantenir el disseny original utilitzant l'opció - maquetació amb la comanda, però també podem intentar-sense. En una terminal (Ctrl + Alt + T) la comanda a utilitzar seria el següent:

pdftotextconvertir pdf a text sense format

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

En l'anterior comando s'hauria de canviar pdf-entrada.pdf amb el nom de l'arxiu PDF que ens interessi convertir, i pdf-sortida.txt pel nom de l'arxiu TXT en què vulguem guardar el text de l'arxiu PDF d'entrada. Si no especifiquem cap fitxer de text de sortida, pdftotext va nomenar l'arxiu de forma automàtica amb el mateix nom que l'arxiu PDF original però amb extensió txt. Una altra cosa que pot resultar interessant afegir a la comanda seran les rutes abans dels noms dels fitxer si cal (~ / Documents / pdf-entrada.pdf).

Convertir només un rang de pàgines de el PDF a text

Si no ens interessa convertir tot l'arxiu PDF, i volem acotar un rang de pàgines de el PDF a convertir en text caldrà utilitzar l'opció -f (primera pàgina per convertir) I -l (última pàgina per convertir) Seguida cadascuna de les opcions amb el número de la pàgina. La comanda a utilitzar seria alguna cosa com el següent:

pdftotext -layout -f P -l U pdf-entrada.pdf

guardar en format text un nombre donat de pàgines d'un pdf

En l'anterior comando caldrà reemplaçar les lletres P i U amb el primer i últim número de pàgina per extreure. El nom de pdf-entrada.pdf també haurem de canviar-lo i donar-li el nom de l'arxiu PDF amb el qual volem treballar.

Utilitzar caràcters de final de línia

Això anem a poder especificar- usant -eol seguit de mac, dues o unix. El següent comanda s'afegirà terminacions de línies unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Ajuda

Per a la consultar les opcions disponibles, Executa la pàgina de manual:

man pdftotext

man pdftotext

També es pot consultar l'opció d'ajuda amb la comanda:

comandament d'ajuda pdftotext

pdftotext --help

Convertir els arxius PDF d'una carpeta utilitzant un bucle Bash FOR

En cas que vulguem convertir tots els arxius PDF d'una carpeta a arxius de text, pdftotext no admet la conversió per lots de PDF a text. Això anem a poder fer-ho utilitzant un bucle Bash FOR a la terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

Per a la més informació sobre pdftotext, Es pot consultar la pàgina web de el projecte. En cas que prefereixis no haver d'escriure ordres a la terminal, també es pot utilitzar un servei en línia per obtenir el mateix resultat.


Deixa el teu comentari

La seva adreça de correu electrònic no es publicarà. Els camps obligatoris estan marcats amb *

*

*

  1. Responsable de les dades: Miguel Ángel Gatón
  2. Finalitat de les dades: Controlar l'SPAM, gestió de comentaris.
  3. Legitimació: El teu consentiment
  4. Comunicació de les dades: No es comunicaran les dades a tercers excepte per obligació legal.
  5. Emmagatzematge de les dades: Base de dades allotjada en Occentus Networks (UE)
  6. Drets: En qualsevol moment pots limitar, recuperar i esborrar la teva informació.

  1.   Moypher Nigthkrelin va dir

    si, bé serveix, però a vegades he de fer OCR o utilitzar el Libre Office Draw.

    A més hi ha molts editors de pdf. i a l'sembla aquest no passa a texo la imatges, per això no ho veig pràctic.

    I Lliure Office Draw és intuïtiu i pràctic.