Pada artikel selanjutnya kita akan melihat pdftotext. Ini adalah utilitas baris perintah open source yang memungkinkan kita melakukannya mengonversi file PDF ke file teks biasa. Pada dasarnya yang dilakukannya adalah mengekstrak data teks dari file PDF. Perangkat lunak ini gratis dan disertakan secara default di banyak distribusi Gnu / Linux.
Pada baris berikut kita akan melihat alat untuk terminal, tetapi untuk tujuan yang sama yaitu mengekstrak teks dari file PDF Anda juga dapat menggunakan alat grafis seperti kaliber. Perlu dicatat bahwa alat grafis dan yang dapat kita gunakan di terminal, mereka tidak dapat mengekstrak teks jika PDF terbuat dari gambar (foto, gambar buku yang dipindai, dll.).
Di sebagian besar distribusi Gnu / Linux, pdftotext disertakan sebagai bagian dari paket poppler-utils. Alat ini adalah utilitas baris perintah itu mengonversi file PDF menjadi teks biasa. Di dalamnya kita akan menemukan banyak opsi yang tersedia, termasuk kemampuan untuk menentukan kisaran halaman yang akan dikonversi, kemampuan untuk menjaga tata letak fisik asli dari teks sebaik mungkin, mengatur akhir baris, dan bahkan bekerja dengan file PDF yang dilindungi kata sandi. .
Instal pdftotext di Ubuntu
Untuk menginstal alat ini di sistem Ubuntu kami, jika Anda belum menginstalnya, Anda hanya perlu membuka terminal (Ctrl + Alt + T) dan menulis perintah berikut di dalamnya ke instal poppler-utils:
sudo apt install poppler-utils
Cara menggunakan pdftotext
Ubah file PDF menjadi teks
Setelah kami menginstal paket di sistem operasi kami, kami dapat mengonversi file PDF menjadi teks biasa. Bisa coba pertahankan desain asli menggunakan opsi -tata letak dengan perintah, tetapi kita juga dapat mencoba tanpanya. Di terminal (Ctrl + Alt + T) perintah yang akan digunakan adalah sebagai berikut:
pdftotext -layout pdf-entrada.pdf pdf-salida.txt
Pada perintah sebelumnya kita harus mengganti pdf-input.pdf dengan nama file PDF yang ingin kami ubah, dan pdf-output.txt dengan nama file TXT di mana kita ingin menyimpan teks dari file PDF input. Jika kami tidak menentukan file teks keluaran, pdftotext akan secara otomatis memberi nama file dengan nama yang sama dengan file PDF asli tetapi dengan ekstensi txt. Hal lain yang menarik untuk ditambahkan ke perintah adalah jalur sebelum nama file jika perlu (~ / Dokumen / pdf-input.pdf).
Konversikan hanya serangkaian halaman PDF menjadi teks
Jika kami tidak tertarik untuk mengubah seluruh file PDF, dan kami ingin mempersempit rentang halaman PDF untuk diubah menjadi teks akan ada gunakan opsi -f (halaman pertama untuk mengkonversi) Dan -l (halaman terakhir untuk dikonversi) diikuti oleh setiap opsi dengan nomor halaman. Perintah yang akan digunakan akan menjadi seperti berikut:
pdftotext -layout -f P -l U pdf-entrada.pdf
Pada perintah sebelumnya, Anda harus melakukannya ganti huruf P dan U dengan nomor halaman pertama dan terakhir untuk mengekstrak. Nama dari pdf-input.pdf Kami juga harus mengubahnya dan memberinya nama file PDF yang ingin kami gunakan.
Gunakan karakter akhir baris
Ini akan kami tentukan menggunakan -eol diikuti oleh mac, dos atau unix. Perintah berikut akan menambahkan akhiran baris unix:
pdftotext -layout -eol unix pdf-entrada.pdf
Membantu
untuk periksa opsi yang tersedia, jalankan halaman manual:
man pdftotext
Anda juga bisa lihat opsi bantuan dengan perintah:
pdftotext --help
Konversi file PDF dari folder menggunakan loop Bash FOR
Jika kami ingin mengonversi semua file PDF dalam folder menjadi file teks, pdftotext tidak mendukung konversi batch dari PDF ke teks. Ini kita akan dapat melakukannya menggunakan loop Bash FOR di terminal (Ctrl + Alt + T):
for file in *.pdf; do pdftotext -layout "$file"; done
untuk informasi lebih lanjut tentang pdftotext, Anda dapat berkonsultasi dengan situs proyek. Jika Anda memilih untuk tidak mengetikkan perintah di terminal, Anda juga bisa gunakan a layanan online untuk mendapatkan hasil yang sama.
ya, itu berfungsi dengan baik, tetapi terkadang saya harus melakukan OCR atau menggunakan Libre Office Draw.
Selain itu ada banyak editor pdf. dan ternyata hal ini tidak terjadi pada teks gambar, jadi menurut saya tidak praktis.
Dan Libre Office Draw intuitif dan praktis.