Dans le prochain article, nous allons jeter un œil à pdftotext. Ceci est un utilitaire de ligne de commande open source qui nous permettra de convertir des fichiers PDF en fichiers texte brut. Fondamentalement, il extrait les données texte des fichiers PDF. Ce logiciel est gratuit et est inclus par défaut dans de nombreuses distributions Gnu / Linux.
Dans les lignes suivantes, nous allons voir un outil pour le terminal, mais dans le même but d'extraire du texte à partir de fichiers PDF vous pouvez également utiliser un outil graphique comme calibre. Il est à noter que l'outil graphique et celui que nous pouvons utiliser dans le terminal, ils ne peuvent pas extraire le texte si le PDF est composé d'images (photographies, images de livres numérisées, etc.).
Sur la plupart des distributions Gnu / Linux, pdftotext est inclus dans le package poppler-utils. Cet outil est un utilitaire de ligne de commande qui convertir des fichiers PDF en texte brut. Nous y trouverons de nombreuses options disponibles, y compris la possibilité de spécifier la plage de pages à convertir, la possibilité de conserver au mieux la mise en page physique originale du texte, de définir des fins de ligne et même de travailler avec des fichiers PDF protégés par mot de passe. .
Installez pdftotext sur Ubuntu
Pour installer cet outil sur notre système Ubuntu, au cas où vous ne l'avez pas déjà installé, il vous suffit d'ouvrir un terminal (Ctrl + Alt + T) et d'y écrire la commande suivante installer poppler-utils:
sudo apt install poppler-utils
Comment utiliser pdftotext
Convertir un fichier PDF en texte
Une fois le package installé sur notre système d'exploitation, nous pouvons convertir un fichier PDF en texte brut. Pouvons essayez de conserver le design original en utilisant l'option -disposition avec la commande, mais nous pouvons aussi essayer sans elle. Dans un terminal (Ctrl + Alt + T), la commande à utiliser serait la suivante:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Dans la commande précédente, nous devions remplacer pdf-input.pdf avec le nom du fichier PDF que nous souhaitons convertir, et pdf-output.txt par le nom du fichier TXT dans lequel nous voulons enregistrer le texte du fichier PDF d'entrée. Si nous ne spécifions aucun fichier texte de sortie, pdftotext nommera automatiquement le fichier avec le même nom que le fichier PDF d'origine mais avec une extension txt. Une autre chose qui peut être intéressante à ajouter à la commande sera les chemins avant les noms de fichiers si nécessaire (~ / Documents / pdf-input.pdf).
Convertir uniquement une plage de pages PDF en texte
Si nous ne sommes pas intéressés par la conversion de l'intégralité du fichier PDF et que nous voulons restreindre une gamme de pages PDF à convertir en texte Il y aura utiliser l'option -f (première page à convertir) Y -l (dernière page à convertir) suivi de chaque option avec le numéro de page. La commande à utiliser serait quelque chose comme la suivante:
pdftotext -layout -f P -l U pdf-entrada.pdf
Dans la commande précédente, vous devrez remplacez les lettres P et U par le premier et le dernier numéro de page extraire. Le nom de pdf-input.pdf Nous devrons également le changer et lui donner le nom du fichier PDF avec lequel nous voulons travailler.
Utiliser des caractères de fin de ligne
Nous pourrons le préciser en utilisant -eol suivi de mac, dos ou unix. La commande suivante ajoutera des fins de ligne unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Aide
Pour vérifier les options disponibles, exécutez la page de manuel:
man pdftotext
Vous pouvez également consulter l'option d'aide avec la commande:
pdftotext --help
Convertir des fichiers PDF à partir d'un dossier à l'aide d'une boucle Bash FOR
Si nous voulons convertir tous les fichiers PDF d'un dossier en fichiers texte, pdftotext ne prend pas en charge la conversion par lots de PDF en texte. Cette nous pourrons le faire en utilisant une boucle Bash FOR dans le terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
Pour plus d'informations sur pdftotext, vous pouvez consulter le site web du projet. Si vous préférez ne pas avoir à taper de commandes dans le terminal, vous pouvez également utiliser un un service en ligne pour obtenir le même résultat.
oui, ça marche, mais parfois je dois faire de l'OCR ou utiliser Libre Office Draw.
De plus, il existe de nombreux éditeurs de pdf. et apparemment cela n'arrive pas à envoyer des textos aux images, donc je ne vois pas cela pratique.
Et Libre Office Draw est intuitif et pratique.