אם התוכנית לא מצליחה לזהות תווים מסוימים

בעת זיהוי הטקסט, ABBYY FineReader 14 עושה שימוש בנתונים על שפת המסמך. ייתכן שהתוכנית לא תצליח לזהות חלק מהתווים במסמכים שבהם קיימים אלמנטים לא נפוצים (למשל, מספרי קוד), משום שייתכן ששפת המסמך אינה מכילה תווים אלה. כדי לזהות מסמכים כאלה, באפשרותך ליצור שפה מותאמת אישית, המכילה את כל התווים הנחוצים. ניתן גם ליצור קבוצות של כמה שפות לזיהוי תווים אופטי (OCR) ולהשתמש בקבוצות אלו בעת זיהוי המסמכים.

כיצד ליצור שפת משתמש

  1. פתח את תיבת הדו-שיח Options (לחץ על Tools > Options... כדי לפתוח תיבת דו-שיח זאת), לחץ על הכרטיסייה Languages.
  2. לחץ על הלחצן New....
  3. בתיבת הדו-שיח שתיפתח, בחר באפשרות Create a new language based on an existing one, בחר את השפה שבה תרצה להשתמש בתור בסיס לשפה החדשה, ולחץ על OK.
  4. תיבת הדו-שיח Language Properties תיפתח. בתיבת דו-שיח זו:
    1. הקלד שם לשפה החדשה.
    2. השפה שבחרת בתיבת הדו-שיח New Language or Group תופיע ברשימה הנפתחת Source language. ניתן לבחור שפה אחרת מרשימה נפתחת זאת.
    3. האפשרות Alphabet מכילה את האלפבית של שפת הבסיס. אם ברצונך לערוך את האלפבית, לחץ על הלחצן .
    4. קבוצה האפשרויות מילון מכילה כמה אפשרויות עבור המילון שבו התוכנית תשתמש בעת זיהוי הטקסט ובדיקת התוצאה:
      • None
        לשפה לא יהיה מילון.
      • Built-in dictionary
        המערכת תשתמש במילון המוכלל של התוכנית.
      • User dictionary
        לחץ על הלחצן Edit... כדי לציין מונחי מילון או כדי לייבא מילון מותאם קיים או קובץ טקסט עם קידוד Windows-1252 (חובה להפריד את המונחים באמצעות תווי רווח או תווים אחרים אשר אינם כלולים באלפבית).
        מילים ממילון המשתמש לא יסומנו כמילים עם שגיאות איות כאשר נערכת בדיקת איות לטקסט המזוהה. המילים יכולות להיכתב במלואן באותיות קטנות או באותיות רישיות או להתחיל באות רישית.
מילה במילון מילים שלא ייחשבו כמילים עם שגיאות איות בעת בדיקת איות
abc abc, Abc, ABC
Abc abc, Abc, ABC
ABC abc, Abc, ABC
Abc aBc, abc, Abc, ABC

  • האפשרות Regular expression מאפשרת לך ליצור מילון משתמש באמצעות ביטויים רגילים.
    ראה גם: ביטויים רגילים.
  1. שפות יכולות לקבל כמה מאפיינים נוספים. כדי לשנות מאפיינים אלה, לחץ על הלחצן Advanced... כדי לפתוח את תיבת הדו-שיח Advanced Language Properties, שבה תוכל לציין:
    • תווים שיכולים להיות בתחילת מילה או בסיומה
    • תווים שאינם אות שמופיעים בנפרד ממילים
    • תווים שעשויים להופיע בתוך מילה אך יש להתעלם מהם
    • תווים שאסור שיופיעו בטקסטים המזוהים באמצעות שפה זאת (תווים אסורים)
    • האפשרות Text may contain Arabic numerals, Roman numerals, and abbreviations
  2. כעת תוכל לבחור את השפה החדשה שנוצרה בעת הבחירה של שפות לזיהוי תווים אופטי (OCR).
    למידע נוסף על שפות של זיהוי תווים אופטי (OCR), עיין בדף שפות זיהוי תווים אופטי (OCR).

כברירת מחדל, שפת המשתמש נשמרת בתיקייה של פרויקט זיהוי התווים האופטי (OCR). ניתן גם לשמור את כל תבניות ושפות המשתמש כקובץ יחיד. לשם כך, פתח את תיבת הדו-שיח Options (לחץ על Tools > Options... כדי לפתוח תיבת דו-שיח זו), לחץ על הכרטיסייה OCR, ולאחר מכן לחץ על הלחצן שמירת תבניות ושפות....

יצירת קבוצת שפות

אם בכוונתך להשתמש בשילוב שפות מסוים באופן שוטף, אולי כדאי לקבץ את השפות יחד לנוחותך.

  1. פתח את תיבת הדו-שיח Options (לחץ על Tools > Options... כדי לפתוח תיבת דו-שיח זו), ולחץ על הכרטיסייה Languages.
  2. לחץ על הלחצן New....
  3. בתיבת הדו-שיח New Language or Group, בחר באפשרות Create a new group of languages, ולחץ על OK.
  4. תיבת הדו-שיח Language Group Properties תיפתח. בתיבת דו-שיח זו, ציין שם עבור קבוצת השפות, ובחר את השפות שברצונך לכלול בקבוצה.
    אם אתה יודע שהטקסט שלך לא יכלול תווים מסוימים, כדאי אולי לציין במפורש "תווים אסורים" אלה. כך תגביר את המהירות ואת הדיוק של זיהוי התווים האופטי (OCR). כדי לציין תווים אלה, לחץ על הלחצן Advanced... בתיבת הדו-שיח Language Group Properties, והזן את התווים האסורים בשדה Prohibited characters.
  5. לחץ על OK.

הקבוצה החדשה תופיע ברשימה הנפתחת של השפות בסרגל הכלים הראשי.

כברירת מחדל, קבוצות של שפות משתמש נשמרות בתיקייה של פרויקט זיהוי התווים האופטי (OCR). ניתן גם לשמור את כל תבניות ושפות המשתמש כקובץ יחיד. לשם כך, פתח את תיבת הדו-שיח Options (לחץ על Tools > Options... כדי לפתוח תיבת דו-שיח זו), לחץ על הכרטיסייה OCR, ולאחר מכן לחץ על הלחצן שמירת תבניות ושפות....

עצה. ניתן להשתמש ברשימה הנפתחת של השפות בסרגל הכלים הראשי כדי לבחור קבוצת שפות.

  1. בחר באפשרות More languages... מהרשימה הנפתחת של השפות בסרגל הכלים הראשי.
  2. בתיבת הדו-שיח Language Editor, בחר באפשרות Specify OCR languages manually.
  3. בחר את השפות הרצויות, ולחץ על OK.

11/2/2018 4:19:24 PM


Please leave your feedback about this article