次の記事では、gImageReaderを見ていきます。 これはアプリです エンジンのフロントエンド Tesseract OCR。 Tesseractを知らない人のために、それは画像に印刷されたテキストを検索して認識するために人工知能を使用する光学式文字認識(OCR)エンジンであると言います。 これはオープンソースライブラリであり、市場で最も人気のあるOCRエンジンのXNUMXつです。 画像から印刷されたテキストを抽出するプロセス全体を簡素化します ユーザーがファイル、スキャンした画像、PDF、貼り付けたクリップボードアイテムなどを操作できるようにします。
今日、オフィス、家庭など、すべてのユーザーは、画像からテキストを抽出する必要がある状況にいることに気付くことができます。 それは、画像形式のスキャンされたドキュメント、一枚の紙、または古い研究論文である可能性があります。 多くのユーザーが採用するオプションは、エディターを使用してすべてのテキストを入力することですが、このプロセスには時間がかかる場合があります。 この作業を回避するために、次のオプションを選択することもできます。 OCRを使用してテキストを自動的に抽出します.
gImageReaderは私たちに多くの機能とツールを提供します。 このアプリケーションは、インポート後に使用するのに適したツールです。 PDF またはスキャンされたドキュメントとそのさらなる処理。
GImageReaderの一般的な機能
- 我々ができるようになります ディスク、スキャンデバイス、クリップボード、スクリーンショットからPDFドキュメントと画像をインポートします。 gImageReaderは、多くの種類のファイルをサポートしています。 ファイルをツールにインポートするだけで、 ワンクリックでテキストを抽出.
- の可能性があります hOCRドキュメントからPDFドキュメントを生成する。 gImageReaderは、抽出されたテキスト、プレーンテキスト、PDF、およびhOCR形式のXNUMXつの形式をサポートします。
- ツールは私たちに可能性を与えます 手動または自動認識領域を定義する 抽出するテキストを選択します。
- 画像のすぐ横に表示される認識されたテキスト。 上のスクリーンショットでわかるように。
- プレーンテキストに抽出した後、gImageReaderは次のような後処理アクションを実行します スペルチェック。 選択した言語に応じて(デフォルトはすべて英語です)、文法上の誤りがある単語に下線を引きます。 さらに、gImageReaderを使用すると、抽出されたテキストに使用するページセグメンテーションモードを選択できます。
- 一度にXNUMXつのファイルを操作できる他のOCRツールとは異なり、gImageReaderは 多数のファイルのインポートとそれらのバッチ処理s.
このプログラムについて私たちはできます 公式ページで詳細情報や新しいアップデートを入手してください GitHubの.
Ubuntuへのインストール
これは クロスプラットフォームアプリケーション そしてそれはGnu / LinuxとWindowsの両方で動作します。 次の行では、Ubuntu18.04でのgImageReaderのインストールプロセスを次のように示しています。 プロジェクトのGitHubページ.
PPAを追加します
このソフトウェアを入手するには、 PPAリポジトリをシステムに追加します。 これを行うには、ターミナルを開いて(Ctrl + Alt + T)、次のコマンドを入力します。
sudo add-apt-repository ppa:sandromani/gimagereader
gImageReaderをインストールします
利用可能なソフトウェアアップデートの後、私たちは今できます アプリケーションのインストールに進みます 同じ端末に入力する:
sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng
上記のすべてで、gImageReaderはUbuntuにインストールする必要があります。 これで、コンピューターでプログラムを開始できるようになります。
アンインストール
必要な場合 gImageReaderをアンインストールしますターミナル(Ctrl + Alt + T)では、次のコマンドを使用するだけで済みます。
sudo apt-get remove gimagereader -y
プログラムの削除を完了するために、次を実行することもできます。
sudo apt-get autoremove
インストールに使用するPPAは、同じ端末に入力することでシステムから削除できます。
sudo add-apt-repository -r ppa:sandromani/gimagereader
gImageReaderはシンプルです フロントエンドGtk / Qt for テッセラクト-ocr これにより、画像から印刷されたテキストを抽出するプロセス全体が簡素化されます。 これにより、ファイル、スキャンした画像、PDF、貼り付けたクリップボードアイテムなどを操作できるようになります。 これにより、画像からテキストを簡単かつ迅速に取り出すことができます。