gImageReader, aplikasi PDF berkemampuan OCR

mengenai gimagereader

Dalam artikel seterusnya kita akan melihat gImageReader. Ini adalah aplikasi hujung hadapan untuk enjin Tesseract OCR. Bagi mereka yang tidak mengenali Tesseract, katakan bahawa ia adalah mesin pengecam watak optik (OCR) yang menggunakan kecerdasan buatan untuk mencari dan mengenali teks yang dicetak pada gambar. Ia adalah perpustakaan sumber terbuka dan salah satu enjin OCR yang paling popular di pasaran. Permudahkan keseluruhan proses mengekstrak teks bercetak dari gambar membolehkan pengguna bekerja dengan fail, gambar yang diimbas, PDF, item papan keratan yang ditampal, dll.

Hari ini semua pengguna, sama ada di pejabat, rumah, dan lain-lain, kita dapat berada dalam keadaan di mana kita perlu mengekstrak teks dari gambar. Ini boleh berupa dokumen yang dipindai dalam format gambar, sehelai kertas, atau kertas penyelidikan lama. Pilihan yang akan diambil oleh banyak pengguna adalah mengetik semua teks menggunakan editor, tetapi proses ini dapat memakan waktu. Untuk mengelakkan kerja ini, kita juga boleh memilih pilihan untuk gunakan OCR untuk mengekstrak teks secara automatik.

gImageReader akan menawarkan banyak fungsi dan alat kepada kami. Aplikasi ini adalah alat yang baik untuk digunakan setelah mengimport a PDF atau dokumen yang diimbas dan pemprosesan selanjutnya.

Ciri Umum GImageReader

ocr gImageReader

  • Kami akan dapat import dokumen dan gambar PDF dari cakera, peranti pengimbasan, papan keratan dan tangkapan skrin. gImageReader menyokong banyak jenis fail. Kita hanya perlu mengimport fail kita ke alat dan ekstrak teks dengan satu klik.
  • Kita akan mempunyai kemungkinan menghasilkan dokumen PDF dari dokumen hOCR. gImageReader menyokong tiga format teks yang diekstrak, teks biasa, PDF, dan format hOCR.
  • Alat ini akan memberi kita kemungkinan untuk tentukan kawasan pengenalan manual atau automatik untuk memilih teks yang akan diekstrak.
  • Teks yang dikenali dipaparkan tepat di sebelah gambar. Seperti yang anda lihat dalam tangkapan skrin di atas.
  • Setelah mengekstrak ke teks biasa, gImageReader melakukan tindakan pasca pemprosesan, seperti semak ejaan. Bergantung pada bahasa yang kita pilih (lalai adalah All English), akan menggariskan perkataan yang mempunyai kesalahan tatabahasa. Sebagai tambahan, gImageReader membolehkan kita memilih mod segmentasi halaman yang ingin kita gunakan untuk teks yang diekstrak.
  • Tidak seperti alat OCR lain di mana kita dapat bekerja dengan satu fail pada satu masa, gImageReader menyokong mengimport banyak fail dan pemprosesan kumpulan merekas.

Mengenai program ini kita dapat dapatkan lebih banyak maklumat atau sebarang kemas kini baru di halaman rasmi mereka GitHub.

Pemasangan di Ubuntu

aplikasi berjalan dengan pdf

Ini adalah satu aplikasi platform silang dan berfungsi pada Gnu / Linux dan Windows. Pada baris berikut kita akan melihat proses pemasangan gImageReader di Ubuntu 18.04 seperti yang ditunjukkan dalam halaman GitHub projek.

Tambah PPA

Untuk memiliki perisian ini, kita akan memerlukan tambahkan repositori PPA ke sistem kami. Kami akan melakukan ini dengan membuka terminal (Ctrl + Alt + T) dan menaip arahan berikut:

tambah repo gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

Pasang gImageReader

Setelah kemas kini perisian tersedia, kita dapat sekarang teruskan memasang aplikasi menaip di terminal yang sama:

Pemasangan gImageReader

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Dengan semua perkara di atas, gImageReader harus dipasang di Ubuntu anda. Sekarang kita seharusnya dapat memulakan program di komputer kita.

pelancar aplikasi

Nyahpasang

Sekiranya kita mahu nyahpasang gImageReader, di terminal (Ctrl + Alt + T) kita hanya perlu menggunakan arahan berikut:

keluarkan gImageReader

sudo apt-get remove gimagereader -y

Untuk menyelesaikan program ini, kami juga dapat melaksanakan:

sudo apt-get autoremove

PPA yang kami gunakan untuk pemasangan dapat dihapuskan dari sistem kami dengan menaip terminal yang sama:

nyahpasang PPA gimagereader

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader adalah mudah depan Gtk / Qt untuk tesseract-ocr yang memudahkan proses pengekstrakan teks bercetak dari gambar. Ini akan membolehkan kita bekerja dengan fail, gambar yang diimbas, PDF, item papan keratan yang ditampal, dll. Ini menjadikannya pilihan yang baik untuk mengeluarkan teks dari gambar kita dengan mudah dan cepat.


Tinggalkan komen anda

Alamat email anda tidak akan disiarkan. Ruangan yang diperlukan ditanda dengan *

*

*

  1. Bertanggungjawab atas data: Miguel Ángel Gatón
  2. Tujuan data: Mengendalikan SPAM, pengurusan komen.
  3. Perundangan: Persetujuan anda
  4. Komunikasi data: Data tidak akan disampaikan kepada pihak ketiga kecuali dengan kewajiban hukum.
  5. Penyimpanan data: Pangkalan data yang dihoskan oleh Occentus Networks (EU)
  6. Hak: Pada bila-bila masa anda boleh menghadkan, memulihkan dan menghapus maklumat anda.