gImageReader, aplikasi PDF dengan kemampuan OCR

Di artikel selanjutnya kita akan melihat gImageReader. Ini adalah sebuah aplikasi ujung depan untuk mesin Tesseract OCR. Bagi mereka yang tidak tahu Tesseract, katakan bahwa itu adalah mesin pengenalan karakter optik (OCR) yang menggunakan kecerdasan buatan untuk mencari dan mengenali teks yang dicetak pada gambar. Ini adalah pustaka sumber terbuka dan salah satu mesin OCR paling populer di pasaran. Sederhanakan seluruh proses mengekstrak teks cetak dari gambar memungkinkan pengguna untuk bekerja dengan file, gambar yang dipindai, PDF, item clipboard yang ditempelkan, dll.

Saat ini semua pengguna, baik di kantor, rumah, dll., Kita dapat menemukan diri kita dalam situasi di mana kita perlu mengekstrak teks dari gambar. Ini bisa berupa dokumen yang dipindai dalam format gambar, selembar kertas, atau makalah penelitian lama. Opsi yang akan diambil oleh banyak pengguna adalah mengetik semua teks menggunakan editor, tetapi proses ini bisa memakan waktu. Untuk menghindari pekerjaan ini, kami juga dapat memilih opsi gunakan OCR untuk mengekstrak teks secara otomatis.

gImageReader akan menawarkan banyak fungsi dan alat kepada kita. Aplikasi ini adalah alat yang bagus untuk digunakan setelah mengimpor file PDF atau dokumen yang dipindai dan proses selanjutnya.

Fitur Umum GImageReader

Kami akan mampu impor dokumen dan gambar PDF dari disk, perangkat pemindai, papan klip, dan tangkapan layar. gImageReader mendukung banyak jenis file. Kami hanya perlu mengimpor file kami ke alat dan ekstrak teks dengan satu klik.
Kami akan memiliki kemungkinan menghasilkan dokumen PDF dari dokumen hOCR. gImageReader mendukung tiga format teks yang diekstrak, teks biasa, PDF, dan format hOCR.
Alat itu akan memberi kita kemungkinan tentukan area pengenalan manual atau otomatis untuk memilih teks yang akan diekstrak.
Teks yang dikenali ditampilkan langsung di sebelah gambar. Seperti yang Anda lihat pada gambar di atas.
Setelah mengekstrak ke teks biasa, gImageReader melakukan tindakan pasca-pemrosesan, seperti cek ejaan. Bergantung pada bahasa yang kita pilih (defaultnya adalah Semua Bahasa Inggris), akan menggarisbawahi kata-kata yang memiliki kesalahan tata bahasa. Selain itu, gImageReader memungkinkan kita memilih mode segmentasi halaman yang ingin kita gunakan untuk teks yang diekstrak.
Tidak seperti alat OCR lainnya tempat kami dapat bekerja dengan satu file dalam satu waktu, gImageReader mendukung file impor berbagai file dan pemrosesan batch merekas.

Tentang program ini kami bisa dapatkan lebih banyak informasi atau pembaruan baru di halaman resmi mereka GitHub.

Instalasi di Ubuntu

Ini adalah aplikasi lintas platform dan bekerja pada Gnu / Linux dan Windows. Pada baris berikut kita akan melihat proses instalasi gImageReader di Ubuntu 18.04 seperti yang ditunjukkan di halaman GitHub proyek.

Tambahkan PPA

Untuk memiliki software ini kita membutuhkan tambahkan repositori PPA ke sistem kami. Kami akan melakukan ini dengan membuka terminal (Ctrl + Alt + T) dan mengetik perintah berikut:

sudo add-apt-repository ppa:sandromani/gimagereader

Pasang gImageReader

Setelah pembaruan perangkat lunak tersedia, sekarang kita bisa lanjutkan untuk menginstal aplikasi mengetik di terminal yang sama:

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Dengan semua hal di atas, gImageReader harus diinstal di Ubuntu Anda. Sekarang kita harus bisa memulai program di komputer kita.

Copot pemasangan

Jika kita mau hapus instalan gImageReader, di terminal (Ctrl + Alt + T) kita hanya perlu menggunakan perintah berikut:

sudo apt-get remove gimagereader -y

Untuk menyelesaikan penghapusan program, kita juga dapat menjalankan:

sudo apt-get autoremove

PPA yang kami gunakan untuk instalasi dapat dihilangkan dari sistem kami dengan mengetik di terminal yang sama:

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader itu sederhana Gtk / Qt front-end untuk tesseract-ocr yang menyederhanakan seluruh proses mengekstrak teks cetak dari gambar. Ini akan memungkinkan kami untuk bekerja dengan file, gambar yang dipindai, PDF, item clipboard yang ditempelkan, dll. Ini menjadikannya pilihan yang baik untuk mengeluarkan teks dari gambar kita dengan mudah dan cepat.

Ubunlog

gImageReader, aplikasi PDF yang mendukung OCR

Fitur Umum GImageReader

Instalasi di Ubuntu

Tambahkan PPA

Pasang gImageReader

Copot pemasangan

tinggalkan Komentar Anda Batalkan balasan