gImageReader, יישום PDF עם יכולות OCR

במאמר הבא אנו נסתכל על gImageReader. זו אפליקציה חזית למנוע Tesseract OCR. למי שלא מכיר את Tesseract, אמור שמדובר במנוע זיהוי תווים אופטי (OCR) שמשתמש בבינה מלאכותית כדי לחפש ולזהות טקסט המודפס על תמונות. זוהי ספריית קוד פתוח ואחד ממנועי ה- OCR הפופולריים ביותר בשוק. לפשט את כל תהליך חילוץ הטקסט המודפס מתמונות המאפשר למשתמשים לעבוד עם קבצים, תמונות סרוקות, קבצי PDF, פריטי לוח מודבקים וכו '.

כיום כל המשתמשים, בין אם במשרדים, בתים וכו ', אנו יכולים למצוא את עצמנו במצב בו אנו צריכים לחלץ טקסט מתמונה. זה יכול להיות מסמך סרוק בפורמט תמונה, פיסת נייר או נייר מחקר ישן. האפשרות שמשתמשים רבים ינקטו היא להקליד את כל הטקסט באמצעות עורך, אך תהליך זה עלול לקחת זמן רב. כדי למנוע עבודה זו, אנו יכולים גם לבחור באפשרות של השתמש ב- OCR כדי לחלץ את הטקסט באופן אוטומטי.

gImageReader יציע לנו פונקציות וכלים רבים. יישום זה הוא כלי טוב לשימוש לאחר ייבוא PDF או את המסמך הנסרק ועיבוד נוסף שלו.

תכונות כלליות של GImageReader

נוכל לייבא מסמכי PDF ותמונות מדיסק, מכשירי סריקה, לוח תמונות וצילומי מסך. gImageReader תומך בסוגים רבים של קבצים. פשוט נצטרך לייבא את הקבצים שלנו לכלי ו- לחלץ טקסט בלחיצה אחת.
תהיה לנו אפשרות ליצור מסמכי PDF ממסמכי hOCR. gImageReader תומך בשלושה תבניות טקסט שחולצו, טקסט רגיל, PDF ו- hOCR.
הכלי ייתן לנו את האפשרות של להגדיר אזור זיהוי ידני או אוטומטי כדי לבחור את הטקסט לחילוץ.
הטקסט המוכר המוצג ישירות לצד התמונה. כפי שניתן לראות בצילום המסך לעיל.
לאחר החילוץ לטקסט רגיל, gImageReader מבצע פעולות לאחר עיבוד, כגון בדיקת איות. תלוי בשפה שאנו בוחרים (ברירת המחדל היא הכל באנגלית), ידגיש מילים שיש בהן שגיאות דקדוק. בנוסף, gImageReader מאפשר לנו לבחור את מצב פילוח העמודים בו אנו רוצים להשתמש לטקסט שחולץ.
שלא כמו כלי OCR אחרים שבהם אנו יכולים לעבוד עם קובץ אחד בכל פעם, gImageReader תומך ב- ייבוא של קבצים רבים ועיבוד האצווה שלהםs.

על תוכנית זו אנו יכולים לקבל מידע נוסף או כל עדכון חדש בדף הרשמי שלהם GitHub.

התקנה באובונטו

זה יישום חוצה פלטפורמות וזה עובד גם ב- Gnu / Linux וגם ב- Windows. בשורות הבאות נראה את תהליך ההתקנה של gImageReader באובונטו 18.04 כפי שצוין ב עמוד GitHub של הפרויקט.

הוסף את ה- PPA

כדי לקבל את התוכנה הזו נצטרך הוסף את מאגר ה- PPA למערכת שלנו. אנו נעשה זאת על ידי פתיחת מסוף (Ctrl + Alt + T) והקלדת הפקודה הבאה:

sudo add-apt-repository ppa:sandromani/gimagereader

התקן את gImageReader

לאחר עדכון התוכנה הזמין, נוכל כעת המשך להתקין את היישום מקליד באותו מסוף:

sudo apt-get install gimagereader tesseract-ocr tesseract-ocr-eng

עם כל האמור לעיל, gImageReader צריך להתקין באובונטו שלך. כעת אנו אמורים להיות מסוגלים להפעיל את התוכנית במחשב שלנו.

הסר את ההתקנה

למקרה שנרצה הסר את התקנת gImageReaderבמסוף (Ctrl + Alt + T) נצטרך להשתמש רק בפקודה הבאה:

sudo apt-get remove gimagereader -y

כדי לסיים את ביטול התוכנית, אנו יכולים גם לבצע:

sudo apt-get autoremove

ניתן להסיר את ה- PPA שאנו משתמשים בו להתקנה מהמערכת שלנו על ידי הקלדה באותו מסוף:

sudo add-apt-repository -r ppa:sandromani/gimagereader

gImageReader הוא פשוט חזיתית Gtk / Qt עבור tesseract-ocr שמגיע לפשט את כל תהליך חילוץ הטקסט המודפס מתמונות. זה יאפשר לנו לעבוד עם קבצים, תמונות סרוקות, PDF, פריטי לוח מודבקים וכו '. זה הופך את זה לאופציה טובה להוציא את הטקסט מהתמונות שלנו בקלות ובמהירות.

השאירו את התגובה שלכם בטל תשובה

כתובת הדוא"ל שלך לא תפורסם. שדות חובה מסומנים *

תגובה *

שם*

דואר אלקטרוני*

אני מקבל את תנאי פרטיות*

אחראי לנתונים: מיגל אנחל גטון
מטרת הנתונים: בקרת ספאם, ניהול תגובות.
לגיטימציה: הסכמתך
מסירת הנתונים: הנתונים לא יועברו לצדדים שלישיים אלא בהתחייבות חוקית.
אחסון נתונים: מסד נתונים המתארח על ידי Occentus Networks (EU)
זכויות: בכל עת תוכל להגביל, לשחזר ולמחוק את המידע שלך.

אני רוצה לקבל את העלון

Ubunlog

gImageReader, יישום PDF תומך ב- OCR