Pdftotext, menukar PDF ke teks dari terminal

mengenai pdftotext

Dalam artikel seterusnya kita akan melihat pdftotext. Ini adalah utiliti baris arahan sumber terbuka yang akan membolehkan kita menukar fail PDF ke fail teks biasa. Pada dasarnya apa yang dilakukannya adalah mengekstrak data teks dari fail PDF. Perisian ini percuma dan disertakan secara lalai dalam banyak pengedaran Gnu / Linux.

Dalam baris berikut kita akan melihat alat untuk terminal, tetapi untuk tujuan yang sama untuk mengekstrak teks dari fail PDF anda juga boleh menggunakan alat grafik seperti berkaliber. Perlu diingat bahawa kedua-dua alat grafik dan alat yang boleh kita gunakan di terminal, mereka tidak dapat mengekstrak teks jika PDF dibuat dari gambar (gambar, gambar buku yang diimbas, dll.).

Pada sebilangan besar pengedaran Gnu / Linux, pdftotext disertakan sebagai sebahagian daripada pakej poppler-utils. Alat ini adalah utiliti baris perintah yang menukar fail PDF ke teks biasa. Di dalamnya kita akan menjumpai banyak pilihan yang tersedia, termasuk kemampuan untuk menentukan julat halaman untuk ditukar, kemampuan untuk menjaga susun atur fizikal asal teks sebaik mungkin, mengatur akhir baris, dan bahkan bekerja dengan fail PDF yang dilindungi kata laluan .

mengenai membuang kata laluan yang diketahui dari pdf
artikel berkaitan:
Keluarkan kata laluan yang diketahui dari fail PDF di Ubutu

Pasang pdftotext di Ubuntu

Untuk memasang alat ini pada sistem Ubuntu kami, sekiranya anda belum memasangnya, anda hanya perlu membuka terminal (Ctrl + Alt + T) dan tuliskan perintah berikut di dalamnya untuk pasang poppler-utils:

pasang utiliti poppler

sudo apt install poppler-utils

Cara menggunakan pdftotext

Tukar fail PDF ke teks

Setelah pakej dipasang di sistem operasi kami, kami dapat menukar fail PDF menjadi teks biasa. Boleh cuba mengekalkan reka bentuk asal menggunakan pilihan -susun atur dengan perintah, tetapi kita juga boleh mencuba tanpanya. Di terminal (Ctrl + Alt + T) arahan yang akan digunakan adalah seperti berikut:

pdftotext menukar pdf menjadi teks biasa

pdftotext -layout pdf-entrada.pdf pdf-salida.txt

Dalam arahan sebelumnya kita harus mengganti pdf-input.pdf dengan nama fail PDF yang kami berminat untuk menukar, dan pdf-output.txt dengan nama fail TXT di mana kami ingin menyimpan teks fail PDF input. Sekiranya kita tidak menentukan fail teks output apa pun, pdftotext akan secara automatik menamakan fail dengan nama yang sama dengan fail PDF asal tetapi dengan sambungan txt. Perkara lain yang menarik untuk ditambahkan pada arahan adalah jalan sebelum nama fail jika perlu (~ / Dokumen / pdf-input.pdf).

Tukar hanya pelbagai halaman PDF ke teks

Sekiranya kita tidak berminat menukar keseluruhan fail PDF, dan kita mahu kecilkan sebilangan halaman PDF untuk menukar ke teks akan ada gunakan -f pilihan (halaman pertama untuk menukardan -l (halaman terakhir untuk menukar) diikuti oleh setiap pilihan dengan nombor halaman. Perintah yang akan digunakan adalah seperti berikut:

pdftotext -layout -f P -l U pdf-entrada.pdf

simpan dalam format teks sebilangan halaman pdf

Dalam arahan sebelumnya, anda perlu gantikan huruf P dan U dengan nombor halaman pertama dan terakhir untuk mengeluarkan. Nama pdf-input.pdf Kita juga harus mengubahnya dan memberikannya nama fail PDF yang dengannya kita mahu bekerja.

Gunakan aksara akhir zaman

Ini akan dapat kita nyatakan menggunakan -eol diikuti oleh mac, dos atau unix. Perintah berikut akan menambah akhir baris unix:

pdftotext -layout -eol unix pdf-entrada.pdf

Bantuan

kepada periksa pilihan yang ada, jalankan halaman lelaki:

lelaki pdftotext

man pdftotext

Anda juga boleh rujuk pilihan bantuan dengan arahan:

bantu bantu pdftotext

pdftotext --help

Tukar fail PDF dari folder menggunakan gelung Bash FOR

Sekiranya kita ingin menukar semua fail PDF dalam folder ke fail teks, pdftotext tidak menyokong penukaran kumpulan dari PDF ke teks. Ini kita akan dapat melakukannya menggunakan gelung Bash FOR di terminal (Ctrl + Alt + T):

for file in *.pdf; do pdftotext -layout "$file"; done

kepada lebih banyak maklumat mengenai pdftotext, anda boleh berjumpa dengan laman web projek. Sekiranya anda memilih untuk tidak perlu mengetik perintah di terminal, anda juga boleh gunakan a perkhidmatan dalam talian untuk mendapatkan hasil yang sama.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.

  1.   Moypher Nightkrelin kata

    ya, baik ia berfungsi, tetapi kadang-kadang saya perlu melakukan OCR atau menggunakan Libre Office Draw.

    Di samping itu terdapat banyak penyunting pdf. dan nampaknya ini tidak berlaku untuk teks gambar, jadi saya tidak melihatnya praktikal.

    Dan Libre Office Draw intuitif dan praktikal.