Dalam artikel seterusnya kita akan melihat gImageReader. Ini adalah aplikasi hujung hadapan untuk enjin Tesseract OCR. Bagi mereka yang tidak mengenali Tesseract, katakan bahawa ia adalah mesin pengecam watak optik (OCR) yang menggunakan kecerdasan buatan untuk mencari dan mengenali teks yang dicetak pada gambar. Ia adalah perpustakaan sumber terbuka dan salah satu enjin OCR yang paling popular di pasaran. Permudahkan keseluruhan proses mengekstrak teks bercetak dari gambar membolehkan pengguna bekerja dengan fail, gambar yang diimbas, PDF, item papan keratan yang ditampal, dll.
Hari ini semua pengguna, sama ada di pejabat, rumah, dan lain-lain, kita dapat berada dalam keadaan di mana kita perlu mengekstrak teks dari gambar. Ini boleh berupa dokumen yang dipindai dalam format gambar, sehelai kertas, atau kertas penyelidikan lama. Pilihan yang akan diambil oleh banyak pengguna adalah mengetik semua teks menggunakan editor, tetapi proses ini dapat memakan waktu. Untuk mengelakkan kerja ini, kita juga boleh memilih pilihan untuk gunakan OCR untuk mengekstrak teks secara automatik.
gImageReader akan menawarkan banyak fungsi dan alat kepada kami. Aplikasi ini adalah alat yang baik untuk digunakan setelah mengimport a PDF atau dokumen yang diimbas dan pemprosesan selanjutnya.
Ciri Umum GImageReader
- Kami akan dapat import dokumen dan gambar PDF dari cakera, peranti pengimbasan, papan keratan dan tangkapan skrin. gImageReader menyokong banyak jenis fail. Kita hanya perlu mengimport fail kita ke alat dan ekstrak teks dengan satu klik.
- Kita akan mempunyai kemungkinan menghasilkan dokumen PDF dari dokumen hOCR. gImageReader menyokong tiga format teks yang diekstrak, teks biasa, PDF, dan format hOCR.
- Alat ini akan memberi kita kemungkinan untuk tentukan kawasan pengenalan manual atau automatik untuk memilih teks yang akan diekstrak.
- Teks yang dikenali dipaparkan tepat di sebelah gambar. Seperti yang anda lihat dalam tangkapan skrin di atas.
- Setelah mengekstrak ke teks biasa, gImageReader melakukan tindakan pasca pemprosesan, seperti semak ejaan. Bergantung pada bahasa yang kita pilih (lalai adalah All English), akan menggariskan perkataan yang mempunyai kesalahan tatabahasa. Sebagai tambahan, gImageReader membolehkan kita memilih mod segmentasi halaman yang ingin kita gunakan untuk teks yang diekstrak.
- Tidak seperti alat OCR lain di mana kita dapat bekerja dengan satu fail pada satu masa, gImageReader menyokong mengimport banyak fail dan pemprosesan kumpulan merekas.
Mengenai program ini kita dapat dapatkan lebih banyak maklumat atau sebarang kemas kini baru di halaman rasmi mereka GitHub.
Pemasangan di Ubuntu
Ini adalah satu aplikasi platform silang dan berfungsi pada Gnu / Linux dan Windows. Pada baris berikut kita akan melihat proses pemasangan gImageReader di Ubuntu 18.04 seperti yang ditunjukkan dalam halaman GitHub projek.
Tambah PPA
Untuk memiliki perisian ini, kita akan memerlukan tambahkan repositori PPA ke sistem kami. Kami akan melakukan ini dengan membuka terminal (Ctrl + Alt + T) dan menaip arahan berikut:
sudo add-apt-repository ppa:sandromani/gimagereader
Pasang gImageReader
Setelah kemas kini perisian tersedia, kita dapat sekarang teruskan memasang aplikasi menaip di terminal yang sama:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
Dengan semua perkara di atas, gImageReader harus dipasang di Ubuntu anda. Sekarang kita seharusnya dapat memulakan program di komputer kita.
Nyahpasang
Sekiranya kita mahu nyahpasang gImageReader, di terminal (Ctrl + Alt + T) kita hanya perlu menggunakan arahan berikut:
sudo apt-get remove gimagereader -y
Untuk menyelesaikan program ini, kami juga dapat melaksanakan:
sudo apt-get autoremove
PPA yang kami gunakan untuk pemasangan dapat dihapuskan dari sistem kami dengan menaip terminal yang sama:
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReader adalah mudah depan Gtk / Qt untuk tesseract-ocr yang memudahkan proses pengekstrakan teks bercetak dari gambar. Ini akan membolehkan kita bekerja dengan fail, gambar yang diimbas, PDF, item papan keratan yang ditampal, dll. Ini menjadikannya pilihan yang baik untuk mengeluarkan teks dari gambar kita dengan mudah dan cepat.