עבודה עם עברית ושפות נוספות

באמצעות ABBYY FineReader ניתן לזהות מסמכים בשפות ערבית, עברית, יידיש, תאילנדית, סינית, יפנית וקוריאנית. במהלך העבודה עם מסמכים בסינית, ביפנית או בקוריאנית, כמו גם מסמכים שבהם יש שילוב בין סינית, יפנית או קוריאנית לבין שפות אירופאיות, יש להביא בחשבון מספר גורמים נוספים.

גופנים מומלצים

כדי לזהות טקסט בשפות ערבית, עברית, יידיש, תאילנדית, סינית, יפנית וקוריאנית, ייתכן שיהיה צורך בהתקנת גופנים נוספים. הטבלה שלהלן מפרטת את הגופנים המומלצים עבור טקסטים בשפות אלו.

שפות של זיהוי תווים אופטי (OCR)‏ גופן מומלץ
ערבית Arial™ Unicode™ MS
עברית Arial™ Unicode™ MS
יידיש Arial™ Unicode™ MS
תאילנדית

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

סינית (פשוטה)

סינית (מסורתית)

יפנית, קוריאנית

קוריאנית (הנגול)

Arial™ Unicode™ MS

גופני SimSun כגון:

Example SimSun (Founder Extended)‎,

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(עבור-ISO10646)

STSong

החלק שלהלן מכיל עצות לשיפור דיוק הזיהוי.

השבתה של עיבוד תמונה אוטומטי

כברירת מחדל, כל העמודים שתוסיף לפרויקט של זיהוי תווים אופטי (OCR) יעברו זיהוי באופן אוטומטי.

עם זאת, אם המסמך מכיל טקסט בסינית, ביפנית או בקוריאנית בשילוב עם שפה אירופאית, מומלץ להשבית את הזיהוי האוטומטי של כיוון העמוד ולהשתמש באפשרות פיצול עמוד כפול רק אם כל תמונות העמוד נמצאות בכיוון הנכון (כלומר, הן לא נסרקו במהופך).

ניתן לאפשר/להשבית את האפשרות Correct page orientation והאפשרות Split facing pages בכרטיסייה Image Processing של תיבת הדו-שיח Options (לחץ על Tools > Options... כדי לפתוח תיבת דו-שיח זו).

כדי לפצל עמודים צמודים בערבית, בעברית או ביידיש, ודא תחילה שבחרת בשפה המתאימה לזיהוי תווים אופטי (OCR), ורק לאחר מכן בחר באפשרות Split facing pages. ניתן גם לשחזר את מספור העמודים המקורי על-ידי בחירה באפשרות Swap book pages. ראה גם: פרויקטים של זיהוי תווים אופטי (OCR).

אם למסמך יש מבנה מורכב, מומלץ להשבית ניתוח וזיהוי תווים אופטי (OCR) אוטומטי עבור תמונות ולבצע פעולות אלו באופן ידני.

ניתן לכבות ניתוח וזיהוי תווים אופטי (OCR) אוטומטי של תמונות חדשות שנוספו בכרטיסייה Image Processing של תיבת הדו-שיח Options (לחץ על Tools > Options... כדי לפתוח תיבת דו-שיח זו).

  1. לחץ על Tools > Options... כדי לפתוח את תיבת הדו-שיח Options.
  2. בכרטיסייה Image Processing, נקה את האפשרות Automatically process page images as they are added to the OCR Editor.
  3. לחץ על אישור.

זיהוי מסמכים הכתובים ביותר משפה אחת

ההוראות שלהלן ניתנות כדוגמה, ומסבירות כיצד לזהות מסמך שמכיל טקסט גם באנגלית וגם בסינית. ניתן לזהות באופן דומה מסמכים המכילים שפות אחרות.

  1. בסרגל הכלים הראשי, בחר באפשרות More languages... מרשימת השפות. בתיבת הדו-שיח Language Editor, בחר באפשרות Specify OCR languages manually, ובחר סינית ואנגלית מרשימת השפות.
  2. סרוק את העמודים או פתח את התמונות.
  3. אם התוכנית לא מצליחה לזהות את כל האזורים בתמונה:
    • ציין אזורים באופן ידני באמצעות כלי עריכת אזור
    • ציין אזורים שמכילים רק שפה אחת, ותחת Area Properties ציין אנגלית או סינית בהתאם.
      ניתן לציין שפה רק עבור אזורים מאותו הסוג. אם בחרת באזורים מסוגים שונים, כגון טקסט וטבלה, לא תוכל לציין שפה.
    • במידת הצורך, בחר בכיוון הטקסט מהרשימה הנפתחת Orientation (לפרטים, עיין בדף אם טקסט אנכי או הפוך לא זוהה)
    • עבור טקסטים בשפות סינית, יפנית או קוריאנית, התוכנית מספקת בחירה של כיווני טקסט ברשימה הנפתחת Direction of CJK text (לפרטים, עיין בדף עריכת מאפייני אזור).

אם לא מוצגים תווים שאינם אירופאים בחלונית הטקסט

אם טקסט בשפות סינית, יפנית או קוריאנית מוצג באופן שגוי בחלונית טקסט, ייתכן שבחרת במצב Plain text.

כדי לשנות את הגופן שבו נעשה שימוש במצב Plain text:

  1. לחץ על Tools > Options... כדי לפתוח את תיבת הדו-שיח Options.
  2. לחץ על הכרטיסייה Areas and Text.
  3. בחר Arial Unicode MS מהרשימה הנפתחת Font used to display plain text.
  4. לחץ על אישור.

אם פעולה זאת לא עזרה, והטקסט בחלון טקסט עדיין מוצג באופן שגוי, עיין בדף נעשה שימוש בגופן שגוי או שחלק מהתווים הוחלפו ב-"?" או ב-"□".

שינוי הכיוון של הטקסט המזוהה

ABBYY FineReader מזהה כיוון טקסט באופן אוטומטי, אך ניתן גם לציין כיוון טקסט באופן ידני.

  1. הפעל את החלונית 'טקסט'.
  2. בחר פסקה אחת או יותר.
  3. לחץ על הלחצן בסרגל הכלים שבחלונית 'טקסט'.

ניתן להשתמש ברשימה הנפתחת Direction of CJK text בחלונית תמונה כדי לציין את כיוון הטקסט לפני ביצוע זיהוי התווים האופטי (OCR). ראה גם: עריכת מאפייני אזור.

02.11.2018 16:19:24


Please leave your feedback about this article