Pdftotext, convertiți un PDF în text de la terminal

despre pdftotext

În articolul următor vom analiza pdftotext. Acesta este un utilitar de linie de comandă open source care ne va permite convertiți fișiere PDF în fișiere text simplu. Practic, ceea ce face este să extragă datele text din fișierele PDF. Acest software este gratuit și este inclus în mod implicit în multe distribuții Gnu / Linux.

În rândurile următoare vom vedea un instrument pentru terminal, dar în același scop de a extrage text din fișiere PDF puteți utiliza, de asemenea, un instrument grafic, cum ar fi calibru. Este demn de remarcat faptul că atât instrumentul grafic, cât și cel pe care îl putem folosi în terminal, nu pot extrage textul dacă PDF-ul este format din imagini (fotografii, imagini de carte scanate etc.).

La majoritatea distribuțiilor Gnu / Linux, pdftotext este inclus ca parte a pachetului poppler-utils. Acest instrument este un utilitar de linie de comandă care convertiți fișiere PDF în text simplu. În el vom găsi numeroase opțiuni disponibile, inclusiv posibilitatea de a specifica gama de pagini de convertit, posibilitatea de a păstra aspectul fizic original al textului cât mai bine posibil, de a seta terminări de linie și chiar de a lucra cu fișiere PDF protejate prin parolă. .

despre eliminarea unei parole cunoscute dintr-un pdf
Articol asociat:
Eliminați o parolă cunoscută dintr-un fișier PDF din Ubutu

Instalați pdftotext pe Ubuntu

Pentru a instala acest instrument pe sistemul nostru Ubuntu, în cazul în care nu îl aveți deja instalat, trebuie doar să deschideți un terminal (Ctrl + Alt + T) și să scrieți următoarea comandă în acesta instalează poppler-utils:

instalează poppler utils

sudo apt install poppler-utils

Cum se folosește pdftotext

Convertiți un fișier PDF în text

Odată ce pachetul este instalat pe sistemul nostru de operare, putem converti un fișier PDF în text simplu. Poate sa încercați să păstrați designul original folosind opțiunea -planare cu comanda, dar putem încerca și fără ea. Într-un terminal (Ctrl + Alt + T) comanda de utilizat ar fi următoarea:

pdftotext convertește pdf în text simplu

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

În comanda anterioară ar trebui să înlocuiți pdf-input.pdf cu numele fișierului PDF pe care ne interesează să îl convertim și pdf-output.txt după numele fișierului TXT în care dorim să salvăm textul fișierului PDF de intrare. Dacă nu specificăm niciun fișier text de ieșire, pdftotext va denumi automat fișierul cu același nume ca și fișierul PDF original, dar cu o extensie txt. Un alt lucru care poate fi interesant de adăugat la comandă vor fi căile înainte de numele fișierelor, dacă este necesar (~ / Documents / pdf-input.pdf).

Convertiți numai o serie de pagini PDF în text

Dacă nu suntem interesați să convertim întregul fișier PDF și dorim restrângeți o serie de pagini PDF pentru a le converti în text va fi utilizați opțiunea -f (prima pagină de convertit) Y -l (ultima pagină de convertit) urmată de fiecare opțiune cu numărul paginii. Comanda de utilizat ar fi ceva de genul următoare:

pdftotext -layout -f P -l U pdf-entrada.pdf

salvați în format text un anumit număr de pagini ale unui pdf

În comanda anterioară va trebui să înlocuiți literele P și U cu prima și ultima pagină a extrage. Numele lui pdf-input.pdf De asemenea, va trebui să-l schimbăm și să-i dăm numele fișierului PDF cu care dorim să lucrăm.

Folosiți caractere de sfârșit de linie

Acest lucru îl vom putea specifica folosind -eol urmat de mac, dos sau unix. Următoarea comandă va adăuga finaluri de linie unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Ajutor

la verificați opțiunile disponibile, rulați pagina manuală:

om pdftotext

man pdftotext

Puteți, de asemenea consultați opțiunea de ajutor cu comanda:

comanda help pdftotext

pdftotext --help

Convertiți fișiere PDF dintr-un folder folosind o buclă Bash FOR

În cazul în care dorim să convertim toate fișierele PDF dintr-un folder în fișiere text, pdftotext nu acceptă conversia batch din PDF în text. acest o vom putea face folosind o buclă Bash FOR în terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

la mai multe informații despre pdftotext, puteți consulta site-ul proiectului. În cazul în care preferați să nu trebuie să tastați comenzi în terminal, puteți, de asemenea folosiți un serviciu online pentru a obține același rezultat.


Lasă comentariul tău

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

*

*

  1. Responsabil pentru date: Miguel Ángel Gatón
  2. Scopul datelor: Control SPAM, gestionarea comentariilor.
  3. Legitimare: consimțământul dvs.
  4. Comunicarea datelor: datele nu vor fi comunicate terților decât prin obligație legală.
  5. Stocarea datelor: bază de date găzduită de Occentus Networks (UE)
  6. Drepturi: în orice moment vă puteți limita, recupera și șterge informațiile.

  1.   Moypher Nightkrelin el a spus

    da, bine funcționează, dar uneori trebuie să fac OCR sau să folosesc Libre Office Draw.

    În plus, există mulți editori pdf. și se pare că acest lucru nu se întâmplă cu textul imaginilor, așa că nu văd practic.

    Și Libre Office Draw este intuitiv și practic.