Pdftotext, converte un PDF in testo dal terminale

su pdftotext

Nel prossimo articolo daremo uno sguardo a pdftotext. Questa è un'utilità della riga di comando open source che ci permetterà di farlo convertire i file PDF in file di testo semplice. Fondamentalmente ciò che fa è estrarre i dati di testo dai file PDF. Questo software è gratuito ed è incluso per impostazione predefinita in molte distribuzioni Gnu / Linux.

Nelle righe seguenti vedremo uno strumento per il terminale, ma con lo stesso scopo di estrarre testo da file PDF puoi anche usare uno strumento grafico come Calibre. Vale la pena notare che sia lo strumento grafico che quello che possiamo usare nel terminale, non possono estrarre il testo se il PDF è composto da immagini (fotografie, immagini di libri scansionati, ecc.).

Sulla maggior parte delle distribuzioni Gnu / Linux, pdftotext è incluso come parte del pacchetto poppler-utils. Questo strumento è un'utilità della riga di comando che convertire i file PDF in testo normale. In esso troveremo molte opzioni disponibili, inclusa la possibilità di specificare l'intervallo di pagine da convertire, la possibilità di mantenere il layout fisico originale del testo nel miglior modo possibile, impostare le terminazioni di riga e persino lavorare con file PDF protetti da password .

sulla rimozione di una password nota da un pdf
Articolo correlato:
Rimuovi una password nota da un file PDF in Ubutu

Installa pdftotext su Ubuntu

Per installare questo strumento sul nostro sistema Ubuntu, nel caso non lo avessi già installato, devi solo aprire un terminale (Ctrl + Alt + T) e scrivere il seguente comando in esso installa poppler-utils:

installa poppler utils

sudo apt install poppler-utils

Come usare pdftotext

Converti un file PDF in testo

Una volta installato il pacchetto sul nostro sistema operativo, possiamo convertire un file PDF in testo normale. Può cerca di mantenere il design originale utilizzando l'opzione -disposizione con il comando, ma possiamo anche provare senza di esso. In un terminale (Ctrl + Alt + T) il comando da utilizzare sarebbe il seguente:

pdftotext converte il pdf in testo normale

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Nel comando precedente avremmo dovuto sostituire pdf-input.pdf con il nome del file PDF che ci interessa convertire e pdf-output.txt dal nome del file TXT in cui vogliamo salvare il testo del file PDF di input. Se non specifichiamo alcun file di testo di output, pdftotext nominerà automaticamente il file con lo stesso nome del file PDF originale ma con un'estensione txt. Un'altra cosa che può essere interessante da aggiungere al comando saranno i percorsi prima dei nomi dei file, se necessario (~ / Documents / pdf-input.pdf).

Converti solo un intervallo di pagine PDF in testo

Se non siamo interessati a convertire l'intero file PDF, e lo vogliamo restringere un intervallo di pagine PDF da convertire in testo ci sarà usa l'opzione -f (prima pagina da convertire) Y -l (ultima pagina da convertire) seguito da ciascuna opzione con il numero di pagina. Il comando da usare sarebbe qualcosa di simile al seguente:

pdftotext -layout -f P -l U pdf-entrada.pdf

salva in formato testo un dato numero di pagine di un pdf

Nel comando precedente dovrai farlo sostituire le lettere P e U con i numeri della prima e dell'ultima pagina estrarre. Il nome di pdf-input.pdf Dovremo anche cambiarlo e dargli il nome del file PDF con cui vogliamo lavorare.

Usa caratteri di fine riga

Questo potremo precisarlo utilizzando -eol seguito da mac, dos o unix. Il seguente comando aggiungerà terminazioni di riga unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Aiuto

a controlla le opzioni disponibili, esegui la pagina man:

uomo pdftotext

man pdftotext

È anche possibile consultare l'opzione di aiuto con il comando:

help comando pdftotext

pdftotext --help

Converti file PDF da una cartella utilizzando un ciclo Bash FOR

Nel caso in cui desideriamo convertire tutti i file PDF in una cartella in file di testo, pdftotext non supporta la conversione batch da PDF a testo. questo saremo in grado di farlo usando un ciclo Bash FOR nel terminale (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

a ulteriori informazioni su pdftotext, puoi consultare il sito web del progetto. Nel caso in cui preferisci non dover digitare comandi nel terminale, puoi anche farlo usare a servizio online per ottenere lo stesso risultato.


Lascia un tuo commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *

*

*

  1. Responsabile dei dati: Miguel Ángel Gatón
  2. Scopo dei dati: controllo SPAM, gestione commenti.
  3. Legittimazione: il tuo consenso
  4. Comunicazione dei dati: I dati non saranno oggetto di comunicazione a terzi se non per obbligo di legge.
  5. Archiviazione dati: database ospitato da Occentus Networks (UE)
  6. Diritti: in qualsiasi momento puoi limitare, recuperare ed eliminare le tue informazioni.

  1.   Moypher Nightkrelin suddetto

    sì, beh, funziona, ma a volte devo fare l'OCR o usare Libre Office Draw.

    Inoltre ci sono molti editor di pdf. e apparentemente questo non accade al testo delle immagini, quindi non lo vedo pratico.

    E Libre Office Draw è intuitivo e pratico.