TextSnatcher, kopyahin ang teksto mula sa mga larawan patungo sa clipboard

Sa susunod na artikulo titingnan natin ang TextSnatcher. Kung isa ka sa mga user na karaniwang nakikipagtulungan OCR, maaaring gusto mong makakita ng isang simpleng app na binuo sa ibabaw ng isang mahusay na kumplikadong app na tulad nito tesseract. kung hinahanap mo isang madali at hindi kumplikadong paraan upang kopyahin ang teksto mula sa mga larawan sa Gnu/Linux, maaari mong tingnan ang TextSnatcher, maaaring angkop ito sa iyong hinahanap.

Ang posibilidad ng mag-extract ng text mula sa mga larawan, PDF file o mga katulad na bagay, ay walang bago. Ngayon ay makakahanap tayo ng maraming iba't ibang mga tool upang gawin ang trabahong ito, ngunit sa ngayon ay walang gagawa nito nang kasingdali ng TextSnatcher.

Ang tool na ito ay gumaganap ng optical character recognition (OCR) sa ilang segundo, na magbibigay-daan sa mga user mabilis na kopyahin ang teksto mula sa anumang nakikita sa screen patungo sa clipboard ng system, na ginagawa itong handa na i-paste sa ibang lugar. Pagkilala sa karakter, kadalasang kilala bilang OCR (mula sa English Optical Character Recognition), ay isang proseso na naglalayong i-digitize ang mga teksto, na awtomatikong kumikilala mula sa isang imahe, simbolo o character na kabilang sa isang partikular na alpabeto, at pagkatapos ay iimbak ang mga ito bilang data. Kaya maaari tayong makipag-ugnayan sa mga ito sa pamamagitan ng isang text editing program.

Tulad ng para sa interface ng app na ito, hindi ito maaaring maging mas madaling gamitin. Kakailanganin lang natin itong simulan, i-click ang 'Snatch Now!' na buton. Pagkatapos makikita natin ang default na tool sa pagkuha ng screen na lalabas upang kumuha ng full screen capture, pagkuha ng kasalukuyang window o pumili ng lugar na kukunan (inirerekomenda) na tumutuon lamang sa teksto na gusto nating kopyahin.

Pangkalahatang tampok ng TextSnatcher

Papayagan kami ng program na ito kopyahin ang teksto ng mga imahe nang madali, maaari kaming magsagawa ng mga operasyon ng OCR sa ilang segundo, na may medyo magandang resulta.

Account na may suporta sa maramihang wika. Maaaring piliin ang mga ito mula sa pindutan sa kaliwang bahagi, sa tuktok ng window.
Papayagan kami kopyahin ang teksto ng mga larawang gumagawa ng pagpili ng lugar.

Ito ay isang mabilis at madaling gamitin na programa.
Maaari mo tingnan ang ilang mga video ng programang ito na gumagana sa kanyang Repository ng GitHub.
Ang app na ito gumagamit ng Tesseract OCR 4.x para sa pagkilala ng karakter. Kung interesado kang malaman ang higit pa, maaari mong basahin ang tungkol sa tesseract y Star Tesseract-Proyekto.

I-install ang TextSnatcher sa Ubuntu

Ang program na ito makikita natin itong available bilang isang Flatpak package sa Flathub. Kung gumagamit ka ng Ubuntu 20.04 at wala ka pa ring nakapagpapagana ng teknolohiyang ito sa iyong system, maaari kang magpatuloy Ang gabay na ang isang kasamahan ay nagsulat sa blog na ito kanina.

Sa i-install ang program na ito sa Ubuntu, magbubukas lamang kami ng isang terminal (Ctrl + Alt + T) at isagawa ang utos dito:

flatpak install flathub com.github.rajsolai.textsnatcher

Kapag natapos na ang pag-install ng program, kailangan lang nating hanapin ang launcher sa ating computer, o tumakbo sa terminal upang simulan ang programa:

flatpak run com.github.rajsolai.textsnatcher

Kung pagkatapos simulan ang software na ito, hindi ito gumana nang tama o hindi ito nagsimula sa lahat, maaaring kailanganin mong i-install gnome-screenshot. Kung ito ang kaso, ang kailangan mo lang gawin ay mag-type sa isang terminal (Ctrl+Alt+T):

sudo apt install gnome-screenshot

I-uninstall

Kung sakaling gusto mo alisin ang program mula sa iyong system, kakailanganin lamang na magbukas ng terminal (Ctrl+Alt+T) at ilunsad ang utos dito:

flatpak uninstall com.github.rajsolai.textsnatcher

Ang tool na ito ay dinisenyo para sa iba't ibang mga operating system. Bagama't para isulat ang artikulong ito, sinubukan ko lang ito sa Ubuntu 20.04/21.10, na may magagandang resulta sa parehong mga kaso. Ang motor Pinapaandar ng Tesseract OCR ang tool na ito at mahusay itong gumagana kapag ang napiling lugar ay mataas ang resolution, o ang tekstong kokopyahin ay malaki at malinaw..

Sa mababang resolution o napakaliit na mga bloke ng 'text', minsan ay kinokopya ang ilang character sa mas malaki. Gayundin kung ang pagpili ay may maraming dekorasyon, maaari itong humantong sa ilang hindi maintindihan na mga resulta, dahil sinusubukan ng tool na magtalaga ng mga character ng teksto sa mga bahagi ng mga hangganan, mga imahe, atbp.

Ubunlog

TextSnatcher, kopyahin ang teksto mula sa mga larawan patungo sa clipboard

Pangkalahatang tampok ng TextSnatcher

I-install ang TextSnatcher sa Ubuntu

I-uninstall

Iwanan ang iyong puna Ikansela ang tugon