W następnym artykule przyjrzymy się TextSnatcherowi. Jeśli jesteś jednym z użytkowników, z którymi zwykle pracują OCR, możesz chcieć zobaczyć prostą aplikację zbudowaną na bazie świetnej złożonej aplikacji, takiej jak ta Tesseract. jeśli szukasz łatwy i nieskomplikowany sposób kopiowania tekstu z obrazów w Gnu/Linux, możesz rzucić okiem na TextSnatcher, może pasować do tego, czego szukasz.
Możliwość wyodrębnij tekst z obrazów, plików PDF lub podobnych rzeczy, nie jest niczym nowym. Dziś możemy znaleźć wiele różnych narzędzi do tego zadania, ale w tej chwili żadne nie robi tego tak łatwo, jak TextSnatcher.
To narzędzie wykonuje optyczne rozpoznawanie znaków (OCR) w kilka sekund, co pozwoli użytkownikom szybko skopiuj tekst z wszystkiego, co jest widoczne na ekranie do schowka systemowego, dzięki czemu będzie gotowy do wklejenia w innym miejscu. Rozpoznawanie znaków, często znane jako OCR (z angielskiego optycznego rozpoznawania znaków) to proces mający na celu digitalizację tekstów, które automatycznie identyfikują z obrazu, symboli lub znaków należących do określonego alfabetu, a następnie przechowują je jako dane. Możemy więc wchodzić z nimi w interakcję za pomocą programu do edycji tekstu.
Jeśli chodzi o interfejs tej aplikacji, nie może być łatwiejszy w użyciu. Wystarczy go uruchomić, kliknąć przycisk „Snatch Now!”. Później zobaczymy domyślne narzędzie do przechwytywania ekranu, które wykonuje zrzut pełnego ekranu, przechwytywanie bieżącego okna lub wybieranie obszaru do przechwycenia (zalecane) skupiając się tylko na tekście, który chcemy skopiować.
Ogólne cechy TextSnatchera
- Ten program nam pozwoli z łatwością kopiuj tekst obrazów, możemy wykonać operacje OCR w kilka sekund, z całkiem dobrymi wynikami.
- Konto z obsługa wielu języków. Można je wybrać za pomocą przycisku po lewej stronie u góry okna.
- Pozwoli nam skopiuj tekst z obrazów, zaznaczając obszar.
- Jest szybki i łatwy w obsłudze program.
- Może być zobacz kilka filmów z tego programu działa w jej Repozytorium GitHub.
- ta aplikacja używa Tesseract OCR 4.x do rozpoznawania znaków. Jeśli chcesz dowiedzieć się więcej, możesz przeczytać o Tesseract y Projekt Star Tesseract.
Zainstaluj TextSnatcher na Ubuntu
Ten program możemy go znaleźć jako pakiet Flatpak pod adresem Flathub. Jeśli używasz Ubuntu 20.04 i nadal nie masz włączonej tej technologii w swoim systemie, możesz kontynuować Przewodnik które jakiś kolega napisał na tym blogu jakiś czas temu.
do zainstaluj ten program na Ubuntu, będziemy musieli tylko otworzyć terminal (Ctrl + Alt + T) i wykonać w nim polecenie:
flatpak install flathub com.github.rajsolai.textsnatcher
Po zakończeniu instalacji programu będziemy musieli tylko poszukać launchera na naszym komputerze lub uruchomić w terminalu, aby uruchomić program:
flatpak run com.github.rajsolai.textsnatcher
Jeśli po uruchomieniu to oprogramowanie nie działa poprawnie lub w ogóle się nie uruchamia, może być konieczna instalacja gnome-screenshot. W takim przypadku wystarczy wpisać terminal (Ctrl+Alt+T):
sudo apt install gnome-screenshot
Odinstaluj
W razie potrzeby usuń program ze swojego systemu, wystarczy otworzyć terminal (Ctrl+Alt+T) i uruchomić w nim polecenie:
flatpak uninstall com.github.rajsolai.textsnatcher
To narzędzie jest przeznaczone dla różnych systemów operacyjnych. Chociaż pisząc ten artykuł, przetestowałem go tylko na Ubuntu 20.04/21.10, z dobrymi wynikami w obu przypadkach. Silnik Tesseract OCR obsługuje to narzędzie i działa świetnie, gdy zaznaczony obszar ma wysoką rozdzielczość lub tekst do skopiowania jest duży i wyraźny..
W niskiej rozdzielczości lub bardzo małych blokach „tekstu” niektóre znaki są czasami kopiowane do większego. Również jeśli zaznaczenie ma dużo dekoracji, może to prowadzić do niezrozumiałych wyników, ponieważ narzędzie próbuje przypisać znaki tekstowe do części obramowań, obrazów itp.