Los documentos de texto son documentos bastante habituales entre los usuarios de Gnu/Linux y del mundo informático…y con ello todos los comandos y programas relacionados con ello. Pero hoy en día, los archivos en formato pdf están ganando terreno a los documentos de texto siendo los predilectos para muchos usuarios, desarrolladores y proyectos.
Si utilizamos un entorno gráfico, el usar y administrar un archivo pdf es fácil, pero ¿y si usamos la terminal? A continuación os contamos como poder manipular archivos pdf y buscar palabras, contar los caracteres del texto del archivo pdf, etc…
Para ello vamos a hacer uso del comando pdfgrep, un comando que es un fork del comando grep. Pdfgrep nos permite crear documentos pdf, enviar información al archivo creado o simplemente buscar una palabra dentro de un documento pdf.
Pdfgrep es una herramienta que podemos encontrar en los repositorios oficiales de casi todas las distribuciones, por lo que para su instalación solo hemos de utilizar el gestor de software de la distribución e instalarlo. Puede ocurrir que nuestra distribución no lo contenga, (algo raro si utilizamos Ubuntu). En ese caso nos dirigimos a la web oficial del desarrollador y conseguiremos el paquete deb o rpm para instalarlo.
Una vez que lo tengamos instalado, el funcionamiento ha de ser el siguiente:
pdfgrep [-v] pattern [archivo.pdf]
En este caso, tanto pdfgrep como pattern son comandos fijos y [-v] es la parte variable que utilizaremos para realizar operaciones con los archivos pdf, como buscar palabras, contar caracteres, etc… El [archivo.pdf] se tiene que cambiar por el nombre del archivo que queremos utilizar o crear. Si esta en la misma carpeta en la que estamos, no habrá problema, pero si el archivo pdf está en otra parte del equipo, hemos de indicar la dirección del archivo pdf puesto que sino habrá un error.
Si realmente usáis el comando grep en la terminal, el comando pdfgrep os encantará. Una herramienta que nos permitirá generar archivos pdf con la información de nuestro equipo y poder enviarlo a un amigo, un técnico o cualquier otro uso similar.
Siguen si ayudarme con el error de BIOS que causó Ubuntu, canonical nos abandono y pretende que se nos olvide, dañaron mi equipo nuevo
y que acaso eres estupido, pedazo de troll que no captas que este blog no pertenece a canonical maldito subnormal, cada que veo el blog estas comentando chorradas anda a cagar a otro lado
Acabo de instalar la siguiente versión en mi Ubuntu 16.04:
«This is pdfgrep version 1.4.1.
Using poppler version 0.41.0
Using libpcre version 8.41 2017-07-05»
Eso lo obtuve con el parámetro –V (o –version) PERO CON EL PARÁMETRO -v ME DICE QUE NO LO RECONOCE.
A todas estas me parece más útil el comando -i o –ignore-case que devuelve ya sea en mayúsculas o en minúsculas la palabra clave que le pasemos en su búsqueda.
SIN EMBARGO TIENE UN GRAVE PROBLEMA PARA BUSCAR PALABRAS ACENTUADAS Y NUESTRA QUERIDA LETRA EÑE, si queremos buscar «producción» o «protección» deberemos buscar:
pdfgrep -i producc nombre_fichero.pdf
pdfgrep -i protecc nombre_fichero.pdf
(ya intenté encerrarlo entre comillas, simples y dobles, el caracter escape de lenguaje C «\» y caracteres comodín y nada de nada). Para buscar la palabra clave «año» pues la verdad no se me ocurre alternativa alguna, quien sepa algo por favor publique por acá y me responda por favor.
LA OPCIÓN MÁS PODEROSA ES -r o –recursive: busca la palabra en TODOS los documentos pdf que tengamos en el directorio que estemos trabajando.
En resumen que es una buena herramienta y como está escrita en software libre bien podemos modificar para que soporte el idioma castellano, ¡gracias por el artículo!
LEYENDO ESTE DOCUMENTO:
https://pdfgrep.org/doc.html
me entero y os doy a conocer que está planteado agregar el parámetro «–unac» para manejar los caracteres acentuados SIN EMBARGO la versión que descargué no tenía soporte unac porque simplemente no fue compilada con esa utilería, que de paso denominan experimental.
LO CURIOSO DEL ASUNTO es que el comando grep no tiene esa limitación, incluso al utilizar con grep el parámetro -i uno puede buscar «ú» y también devolverá «Ú».
En todo caso ya estoy revisando el repositorio de pdfgrep a ver que más aprendo al respecto, vale no os moelsto más (por hoy).