gImageReader, OCR özellikli bir PDF uygulaması

gimagereader hakkında

Bir sonraki makalede gImageReader'a bir göz atacağız. Bu bir uygulama motor için ön uç Tesseract OCR. Tesseract'ı tanımayanlar için, görsellerin üzerine basılmış metinleri aramak ve tanımak için yapay zeka kullanan bir optik karakter tanıma (OCR) motoru olduğunu söyleyin. Açık kaynak kodlu bir kitaplıktır ve piyasadaki en popüler OCR motorlarından biridir. Görüntülerden basılı metin çıkarma işleminin tamamını basitleştirin kullanıcıların dosyalarla, taranmış resimlerle, PDF'lerle, yapıştırılan pano öğeleriyle vb. çalışmasına olanak tanır.

Bugün tüm kullanıcılar, ister ofislerde, ister evlerde vb. Olsun, kendimizi bir görüntüden metin çıkarmamız gereken bir durumda bulabiliriz. Görüntü biçiminde taranmış bir belge, bir kağıt parçası veya eski bir araştırma kağıdı olabilir. Birçok kullanıcının alacağı seçenek, tüm metni bir düzenleyici kullanarak yazmak olacaktır, ancak bu işlem zaman alabilir. Bu işi önlemek için, şu seçeneği de tercih edebiliriz: metni otomatik olarak çıkarmak için bir OCR kullanın.

gImageReader bize birçok işlev ve araç sunacak. Bu uygulama, bir PDF veya taranan belge ve sonraki işlemler.

GImageReader Genel Özellikleri

ocr gImageReader

  • Yapabileceğiz PDF belgelerini ve resimleri diskten, tarama cihazlarından, panodan ve ekran görüntülerinden içe aktarın. gImageReader birçok dosya türünü destekler. Dosyalarımızı araca aktarmamız gerekecek ve tek bir tıklama ile metni ayıklayın.
  • Olma imkanına sahip olacağız hOCR belgelerinden PDF belgeleri oluşturun. gImageReader, çıkarılmış metin, düz metin, PDF ve hOCR formatının üç formatını destekler.
  • Araç bize şu olasılıkları verecektir: manuel veya otomatik bir tanıma alanı tanımlayın Ayıklanacak metni seçmek için.
  • Görüntünün hemen yanında görüntülenen tanınan metin. Yukarıdaki ekran görüntüsünde görebileceğiniz gibi.
  • Düz metne ayıkladıktan sonra, gImageReader aşağıdaki gibi işlem sonrası eylemleri gerçekleştirir: yazım denetimi. Seçtiğimiz dile bağlı olarak (varsayılan Tüm İngilizcedir), gramer hataları olan kelimelerin altını çizer. Ek olarak, gImageReader, çıkarılan metin için kullanmak istediğimiz sayfa bölümleme modunu seçmemize izin verir.
  • Bir seferde bir dosyayla çalışabildiğimiz diğer OCR araçlarının aksine, gImageReader, çok sayıda dosyanın içe aktarılması ve bunların toplu olarak işlenmesis.

Bu program hakkında yapabileceğimiz resmi sayfalarında daha fazla bilgi veya herhangi bir yeni güncelleme alın GitHub.

Ubuntu'ya kurulum

pdf ile çalışan uygulama

Bu bir çapraz platform uygulaması ve hem Gnu / Linux hem de Windows üzerinde çalışır. Aşağıdaki satırlarda, gImageReader kurulum sürecini Ubuntu 18.04'te gösterildiği gibi göreceğiz. projenin GitHub sayfası.

PPA'yı ekleyin

Bu yazılıma sahip olmak için ihtiyacımız olacak PPA deposunu sistemimize ekleyin. Bunu bir terminal (Ctrl + Alt + T) açıp aşağıdaki komutu yazarak yapacağız:

repo ekle gImageReader

sudo add-apt-repository ppa:sandromani/gimagereader

GImageReader'ı yükleyin

Yazılım güncellemesi mevcut olduktan sonra, şimdi yapabiliriz uygulamayı yüklemeye devam et aynı terminalde yazarak:

gImageReader kurulumu

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

Yukarıdakilerin tümü ile gImageReader Ubuntu'nuza kurulmalıdır. Şimdi programı bilgisayarımızda başlatabilmeliyiz.

uygulama başlatıcı

kaldırma

Biz istersek diye gImageReader'ı kaldırın, bir terminalde (Ctrl + Alt + T) yalnızca aşağıdaki komutu kullanmamız gerekecek:

gImageReader'ı kaldırın

sudo apt-get remove gimagereader -y

Programı ortadan kaldırmayı bitirmek için ayrıca şunları da çalıştırabiliriz:

sudo apt-get autoremove

Kurulum için kullandığımız PPA, aynı terminale yazarak sistemimizden çıkarılabilir:

gimagereader PPA'yı kaldır

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader basit bir ön uç Gtk / Qt için tesseract-ocr bu, görüntülerden basılı metni ayıklama işleminin tamamını basitleştiriyor. Dosyalar, taranmış resimler, PDF, yapıştırılmış pano öğeleri vb. İle çalışmamıza izin verecektir. Bu, metni görsellerimizden kolayca ve hızlı bir şekilde çıkarmak için iyi bir seçenek haline getirir.


Yorumunuzu bırakın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar ile işaretlenmiştir *

*

*

  1. Verilerden sorumlu: Miguel Ángel Gatón
  2. Verilerin amacı: Kontrol SPAM, yorum yönetimi.
  3. Meşruiyet: Onayınız
  4. Verilerin iletilmesi: Veriler, yasal zorunluluk dışında üçüncü kişilere iletilmeyecektir.
  5. Veri depolama: Occentus Networks (AB) tarafından barındırılan veritabanı
  6. Haklar: Bilgilerinizi istediğiniz zaman sınırlayabilir, kurtarabilir ve silebilirsiniz.