În articolul următor vom analiza pdftotext. Acesta este un utilitar de linie de comandă open source care ne va permite convertiți fișiere PDF în fișiere text simplu. Practic, ceea ce face este să extragă datele text din fișierele PDF. Acest software este gratuit și este inclus în mod implicit în multe distribuții Gnu / Linux.
În rândurile următoare vom vedea un instrument pentru terminal, dar în același scop de a extrage text din fișiere PDF puteți utiliza, de asemenea, un instrument grafic, cum ar fi calibru. Este demn de remarcat faptul că atât instrumentul grafic, cât și cel pe care îl putem folosi în terminal, nu pot extrage textul dacă PDF-ul este format din imagini (fotografii, imagini de carte scanate etc.).
La majoritatea distribuțiilor Gnu / Linux, pdftotext este inclus ca parte a pachetului poppler-utils. Acest instrument este un utilitar de linie de comandă care convertiți fișiere PDF în text simplu. În el vom găsi numeroase opțiuni disponibile, inclusiv posibilitatea de a specifica gama de pagini de convertit, posibilitatea de a păstra aspectul fizic original al textului cât mai bine posibil, de a seta terminări de linie și chiar de a lucra cu fișiere PDF protejate prin parolă. .
Instalați pdftotext pe Ubuntu
Pentru a instala acest instrument pe sistemul nostru Ubuntu, în cazul în care nu îl aveți deja instalat, trebuie doar să deschideți un terminal (Ctrl + Alt + T) și să scrieți următoarea comandă în acesta instalează poppler-utils:
sudo apt install poppler-utils
Cum se folosește pdftotext
Convertiți un fișier PDF în text
Odată ce pachetul este instalat pe sistemul nostru de operare, putem converti un fișier PDF în text simplu. Poate sa încercați să păstrați designul original folosind opțiunea -planare cu comanda, dar putem încerca și fără ea. Într-un terminal (Ctrl + Alt + T) comanda de utilizat ar fi următoarea:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
În comanda anterioară ar trebui să înlocuiți pdf-input.pdf cu numele fișierului PDF pe care ne interesează să îl convertim și pdf-output.txt după numele fișierului TXT în care dorim să salvăm textul fișierului PDF de intrare. Dacă nu specificăm niciun fișier text de ieșire, pdftotext va denumi automat fișierul cu același nume ca și fișierul PDF original, dar cu o extensie txt. Un alt lucru care poate fi interesant de adăugat la comandă vor fi căile înainte de numele fișierelor, dacă este necesar (~ / Documents / pdf-input.pdf).
Convertiți numai o serie de pagini PDF în text
Dacă nu suntem interesați să convertim întregul fișier PDF și dorim restrângeți o serie de pagini PDF pentru a le converti în text va fi utilizați opțiunea -f (prima pagină de convertit) Y -l (ultima pagină de convertit) urmată de fiecare opțiune cu numărul paginii. Comanda de utilizat ar fi ceva de genul următoare:
pdftotext -layout -f P -l U pdf-entrada.pdf
În comanda anterioară va trebui să înlocuiți literele P și U cu prima și ultima pagină a extrage. Numele lui pdf-input.pdf De asemenea, va trebui să-l schimbăm și să-i dăm numele fișierului PDF cu care dorim să lucrăm.
Folosiți caractere de sfârșit de linie
Acest lucru îl vom putea specifica folosind -eol urmat de mac, dos sau unix. Următoarea comandă va adăuga finaluri de linie unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Ajutor
la verificați opțiunile disponibile, rulați pagina manuală:
man pdftotext
Puteți, de asemenea consultați opțiunea de ajutor cu comanda:
pdftotext --help
Convertiți fișiere PDF dintr-un folder folosind o buclă Bash FOR
În cazul în care dorim să convertim toate fișierele PDF dintr-un folder în fișiere text, pdftotext nu acceptă conversia batch din PDF în text. acest o vom putea face folosind o buclă Bash FOR în terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
la mai multe informații despre pdftotext, puteți consulta site-ul proiectului. În cazul în care preferați să nu trebuie să tastați comenzi în terminal, puteți, de asemenea folosiți un serviciu online pentru a obține același rezultat.
da, bine funcționează, dar uneori trebuie să fac OCR sau să folosesc Libre Office Draw.
În plus, există mulți editori pdf. și se pare că acest lucru nu se întâmplă cu textul imaginilor, așa că nu văd practic.
Și Libre Office Draw este intuitiv și practic.