OCR 기능을 갖춘 PDF 애플리케이션인 gImageReader

다음 기사에서는 gImageReader를 살펴볼 것입니다. 이것은 앱입니다 엔진 용 프런트 엔드 Tesseract OCR. Tesseract를 모르는 사람들을 위해 인공 지능을 사용하여 이미지에 인쇄 된 텍스트를 검색하고 인식하는 OCR (Optical Character Recognition) 엔진이라고합니다. 오픈 소스 라이브러리이며 시장에서 가장 인기있는 OCR 엔진 중 하나입니다. 이미지에서 인쇄 된 텍스트를 추출하는 전체 프로세스를 단순화합니다. 사용자가 파일, 스캔 한 이미지, PDF, 붙여 넣은 클립 보드 항목 등으로 작업 할 수 있습니다.

오늘날 사무실, 집 등 모든 사용자는 이미지에서 텍스트를 추출해야하는 상황에 처해 있습니다. 이미지 형식의 스캔 문서, 종이 또는 오래된 연구 논문 일 수 있습니다. 많은 사용자가 사용하는 옵션은 편집기를 사용하여 모든 텍스트를 입력하는 것이지만이 프로세스는 시간이 많이 걸릴 수 있습니다. 이 작업을 방지하기 위해 다음 옵션을 선택할 수도 있습니다. OCR을 사용하여 텍스트를 자동으로 추출.

gImageReader는 우리에게 많은 기능과 도구를 제공 할 것입니다. 이 응용 프로그램은 가져 오기 후 사용하기에 좋은 도구입니다. PDF 또는 스캔 된 문서 및 추가 처리.

GImageReader 일반 기능

우리는 디스크, 스캔 장치, 클립 보드 및 스크린 샷에서 PDF 문서 및 이미지 가져 오기. gImageReader는 다양한 유형의 파일을 지원합니다. 파일을 도구로 가져 와서 한 번의 클릭으로 텍스트 추출.
우리는 가능성을 가질 것입니다 hOCR 문서에서 PDF 문서 생성. gImageReader는 추출 된 텍스트, 일반 텍스트, PDF 및 hOCR 형식의 세 가지 형식을 지원합니다.
이 도구는 우리에게 가능성을 줄 것입니다 수동 또는 자동 인식 영역 정의 추출 할 텍스트를 선택합니다.
이미지 바로 옆에 표시되는 인식 된 텍스트. 위의 스크린 샷에서 볼 수 있듯이.
일반 텍스트로 추출한 후 gImageReader는 다음과 같은 후 처리 작업을 수행합니다. 맞춤법 검사. 우리가 선택한 언어에 따라 (기본값은 모두 영어입니다.), 문법 오류가있는 단어에 밑줄을 긋습니다. 또한 gImageReader를 사용하면 추출 된 텍스트에 사용할 페이지 분할 모드를 선택할 수 있습니다.
한 번에 하나의 파일로 작업 할 수있는 다른 OCR 도구와 달리 gImageReader는 수많은 파일 가져 오기 및 배치 처리s.

이 프로그램에 대해 우리는 공식 페이지에서 더 많은 정보 또는 새로운 업데이트를 얻으십시오. GitHub의.

Ubuntu에 설치

이번에는 크로스 플랫폼 애플리케이션 Gnu / Linux 및 Windows에서 모두 작동합니다. 다음 줄에서 Ubuntu 18.04의 gImageReader 설치 프로세스를 볼 수 있습니다. 프로젝트의 GitHub 페이지.

PPA 추가

이 소프트웨어를 사용하려면 시스템에 PPA 저장소 추가. 터미널을 열고 (Ctrl + Alt + T) 다음 명령을 입력하여이를 수행합니다.

sudo add-apt-repository ppa:sandromani/gimagereader

gImageReader 설치

소프트웨어 업데이트를 사용할 수있게되면 이제 응용 프로그램 설치 진행 동일한 터미널에 입력 :

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

위의 모든 사항과 함께 gImageReader가 Ubuntu에 설치되어야합니다. 이제 컴퓨터에서 프로그램을 시작할 수 있습니다.

제거

우리가 원하는 경우 gImageReader 제거, 터미널 (Ctrl + Alt + T)에서 다음 명령 만 사용하면됩니다.

sudo apt-get remove gimagereader -y

프로그램 제거를 완료하려면 다음을 실행할 수도 있습니다.

sudo apt-get autoremove

설치에 사용하는 PPA는 동일한 터미널에 입력하여 시스템에서 제거 할 수 있습니다.

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader는 간단합니다. 프런트 엔드 Gtk / Qt tesseract-ocr 이미지에서 인쇄 된 텍스트를 추출하는 전체 프로세스를 단순화합니다. 파일, 스캔 이미지, PDF, 붙여 넣은 클립 보드 항목 등으로 작업 할 수 있습니다. 이것은 쉽고 빠르게 이미지에서 텍스트를 가져 오는 좋은 옵션입니다.

Ubunlog

OCR 지원 PDF 애플리케이션 인 gImageReader

GImageReader 일반 기능

Ubuntu에 설치

PPA 추가

gImageReader 설치

제거

코멘트를 남겨주세요 답장 취소