gImageReader, aplikasi PDF yang mendukung OCR

tentang gimagereader

Di artikel selanjutnya kita akan melihat gImageReader. Ini adalah sebuah aplikasi ujung depan untuk mesin Tesseract OCR. Bagi mereka yang tidak tahu Tesseract, katakan bahwa itu adalah mesin pengenalan karakter optik (OCR) yang menggunakan kecerdasan buatan untuk mencari dan mengenali teks yang dicetak pada gambar. Ini adalah pustaka sumber terbuka dan salah satu mesin OCR paling populer di pasaran. Sederhanakan seluruh proses mengekstrak teks cetak dari gambar memungkinkan pengguna untuk bekerja dengan file, gambar yang dipindai, PDF, item clipboard yang ditempelkan, dll.

Saat ini semua pengguna, baik di kantor, rumah, dll., Kita dapat menemukan diri kita dalam situasi di mana kita perlu mengekstrak teks dari gambar. Ini bisa berupa dokumen yang dipindai dalam format gambar, selembar kertas, atau makalah penelitian lama. Opsi yang akan diambil oleh banyak pengguna adalah mengetik semua teks menggunakan editor, tetapi proses ini bisa memakan waktu. Untuk menghindari pekerjaan ini, kami juga dapat memilih opsi gunakan OCR untuk mengekstrak teks secara otomatis.

gImageReader akan menawarkan banyak fungsi dan alat kepada kita. Aplikasi ini adalah alat yang bagus untuk digunakan setelah mengimpor file PDF atau dokumen yang dipindai dan proses selanjutnya.

Fitur Umum GImageReader

ocr gImageReader

  • Kami akan mampu impor dokumen dan gambar PDF dari disk, perangkat pemindai, papan klip, dan tangkapan layar. gImageReader mendukung banyak jenis file. Kami hanya perlu mengimpor file kami ke alat dan ekstrak teks dengan satu klik.
  • Kami akan memiliki kemungkinan menghasilkan dokumen PDF dari dokumen hOCR. gImageReader mendukung tiga format teks yang diekstrak, teks biasa, PDF, dan format hOCR.
  • Alat itu akan memberi kita kemungkinan tentukan area pengenalan manual atau otomatis untuk memilih teks yang akan diekstrak.
  • Teks yang dikenali ditampilkan langsung di sebelah gambar. Seperti yang Anda lihat pada gambar di atas.
  • Setelah mengekstrak ke teks biasa, gImageReader melakukan tindakan pasca-pemrosesan, seperti cek ejaan. Bergantung pada bahasa yang kita pilih (defaultnya adalah Semua Bahasa Inggris), akan menggarisbawahi kata-kata yang memiliki kesalahan tata bahasa. Selain itu, gImageReader memungkinkan kita memilih mode segmentasi halaman yang ingin kita gunakan untuk teks yang diekstrak.
  • Tidak seperti alat OCR lainnya tempat kami dapat bekerja dengan satu file dalam satu waktu, gImageReader mendukung file impor berbagai file dan pemrosesan batch merekas.

Tentang program ini kami bisa dapatkan lebih banyak informasi atau pembaruan baru di halaman resmi mereka GitHub.

Instalasi di Ubuntu

aplikasi berjalan dengan pdf

Ini adalah aplikasi lintas platform dan bekerja pada Gnu / Linux dan Windows. Pada baris berikut kita akan melihat proses instalasi gImageReader di Ubuntu 18.04 seperti yang ditunjukkan di halaman GitHub proyek.

Tambahkan PPA

Untuk memiliki software ini kita membutuhkan tambahkan repositori PPA ke sistem kami. Kami akan melakukan ini dengan membuka terminal (Ctrl + Alt + T) dan mengetik perintah berikut:

tambahkan repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Pasang gImageReader

Setelah pembaruan perangkat lunak tersedia, sekarang kita bisa lanjutkan untuk menginstal aplikasi mengetik di terminal yang sama:

Instalasi gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Dengan semua hal di atas, gImageReader harus diinstal di Ubuntu Anda. Sekarang kita harus bisa memulai program di komputer kita.

peluncur aplikasi

Copot pemasangan

Jika kita mau hapus instalan gImageReader, di terminal (Ctrl + Alt + T) kita hanya perlu menggunakan perintah berikut:

hapus gImageReader

sudo apt-get remove gimagereader -y

Untuk menyelesaikan penghapusan program, kita juga dapat menjalankan:

sudo apt-get autoremove

PPA yang kami gunakan untuk instalasi dapat dihilangkan dari sistem kami dengan mengetik di terminal yang sama:

uninstall gimagereader PPA

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader itu sederhana Gtk / Qt front-end untuk tesseract-ocr yang menyederhanakan seluruh proses mengekstrak teks cetak dari gambar. Ini akan memungkinkan kami untuk bekerja dengan file, gambar yang dipindai, PDF, item clipboard yang ditempelkan, dll. Ini menjadikannya pilihan yang baik untuk mengeluarkan teks dari gambar kita dengan mudah dan cepat.


tinggalkan Komentar Anda

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai dengan *

*

*

  1. Penanggung jawab data: Miguel Ángel Gatón
  2. Tujuan data: Mengontrol SPAM, manajemen komentar.
  3. Legitimasi: Persetujuan Anda
  4. Komunikasi data: Data tidak akan dikomunikasikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Basis data dihosting oleh Occentus Networks (UE)
  6. Hak: Anda dapat membatasi, memulihkan, dan menghapus informasi Anda kapan saja.