Pdftotext, ubah PDF menjadi teks dari terminal

tentang pdftotext

Pada artikel selanjutnya kita akan melihat pdftotext. Ini adalah utilitas baris perintah open source yang memungkinkan kita melakukannya mengonversi file PDF ke file teks biasa. Pada dasarnya yang dilakukannya adalah mengekstrak data teks dari file PDF. Perangkat lunak ini gratis dan disertakan secara default di banyak distribusi Gnu / Linux.

Pada baris berikut kita akan melihat alat untuk terminal, tetapi untuk tujuan yang sama yaitu mengekstrak teks dari file PDF Anda juga dapat menggunakan alat grafis seperti kaliber. Perlu dicatat bahwa alat grafis dan yang dapat kita gunakan di terminal, mereka tidak dapat mengekstrak teks jika PDF terbuat dari gambar (foto, gambar buku yang dipindai, dll.).

Di sebagian besar distribusi Gnu / Linux, pdftotext disertakan sebagai bagian dari paket poppler-utils. Alat ini adalah utilitas baris perintah itu mengonversi file PDF menjadi teks biasa. Di dalamnya kita akan menemukan banyak opsi yang tersedia, termasuk kemampuan untuk menentukan kisaran halaman yang akan dikonversi, kemampuan untuk menjaga tata letak fisik asli dari teks sebaik mungkin, mengatur akhir baris, dan bahkan bekerja dengan file PDF yang dilindungi kata sandi. .

tentang menghapus kata sandi yang dikenal dari pdf
Artikel terkait:
Hapus kata sandi yang dikenal dari file PDF di Ubutu

Instal pdftotext di Ubuntu

Untuk menginstal alat ini di sistem Ubuntu kami, jika Anda belum menginstalnya, Anda hanya perlu membuka terminal (Ctrl + Alt + T) dan menulis perintah berikut di dalamnya ke instal poppler-utils:

instal utilitas poppler

sudo apt install poppler-utils

Cara menggunakan pdftotext

Ubah file PDF menjadi teks

Setelah kami menginstal paket di sistem operasi kami, kami dapat mengonversi file PDF menjadi teks biasa. Bisa coba pertahankan desain asli menggunakan opsi -tata letak dengan perintah, tetapi kita juga dapat mencoba tanpanya. Di terminal (Ctrl + Alt + T) perintah yang akan digunakan adalah sebagai berikut:

pdftotext mengubah pdf ke teks biasa

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Pada perintah sebelumnya kita harus mengganti pdf-input.pdf dengan nama file PDF yang ingin kami ubah, dan pdf-output.txt dengan nama file TXT di mana kita ingin menyimpan teks dari file PDF input. Jika kami tidak menentukan file teks keluaran, pdftotext akan secara otomatis memberi nama file dengan nama yang sama dengan file PDF asli tetapi dengan ekstensi txt. Hal lain yang menarik untuk ditambahkan ke perintah adalah jalur sebelum nama file jika perlu (~ / Dokumen / pdf-input.pdf).

Konversikan hanya serangkaian halaman PDF menjadi teks

Jika kami tidak tertarik untuk mengubah seluruh file PDF, dan kami ingin mempersempit rentang halaman PDF untuk diubah menjadi teks akan ada gunakan opsi -f (halaman pertama untuk mengkonversi) Dan -l (halaman terakhir untuk dikonversi) diikuti oleh setiap opsi dengan nomor halaman. Perintah yang akan digunakan akan menjadi seperti berikut:

pdftotext -layout -f P -l U pdf-entrada.pdf

simpan dalam format teks sejumlah halaman dari pdf

Pada perintah sebelumnya, Anda harus melakukannya ganti huruf P dan U dengan nomor halaman pertama dan terakhir untuk mengekstrak. Nama dari pdf-input.pdf Kami juga harus mengubahnya dan memberinya nama file PDF yang ingin kami gunakan.

Gunakan karakter akhir baris

Ini akan kami tentukan menggunakan -eol diikuti oleh mac, dos atau unix. Perintah berikut akan menambahkan akhiran baris unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Membantu

untuk periksa opsi yang tersedia, jalankan halaman manual:

pria pdftotext

man pdftotext

Anda juga bisa lihat opsi bantuan dengan perintah:

bantuan perintah pdftotext

pdftotext --help

Konversi file PDF dari folder menggunakan loop Bash FOR

Jika kami ingin mengonversi semua file PDF dalam folder menjadi file teks, pdftotext tidak mendukung konversi batch dari PDF ke teks. Ini kita akan dapat melakukannya menggunakan loop Bash FOR di terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

untuk informasi lebih lanjut tentang pdftotext, Anda dapat berkonsultasi dengan situs proyek. Jika Anda memilih untuk tidak mengetikkan perintah di terminal, Anda juga bisa gunakan a layanan online untuk mendapatkan hasil yang sama.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.

  1.   Moypher Nightkrelin dijo

    ya, itu berfungsi dengan baik, tetapi terkadang saya harus melakukan OCR atau menggunakan Libre Office Draw.

    Selain itu ada banyak editor pdf. dan ternyata hal ini tidak terjadi pada teks gambar, jadi menurut saya tidak praktis.

    Dan Libre Office Draw intuitif dan praktis.