Praca z językami o złożonej pisowni

Przy użyciu programu ABBYY FineReader można rozpoznawać dokumenty w językach: arabskim, hebrajskim, jidysz, tajskim, chińskim, japońskim i koreańskim. Podczas pracy z dokumentami po chińsku, japońsku i koreańsku oraz zawierającymi kombinacje tych języków z europejskimi należy uwzględnić pewne dodatkowe aspekty.

Instalowanie pomocy językowej

Aby móc rozpoznawać teksty po arabsku, hebrajsku, jidysz, tajsku, chińsku, japońsku i koreańsku, może być konieczne zainstalowanie tych języków.

Języki te są obsługiwane domyślnie w systemach Microsoft Windows 8, Windows 7 oraz Windows Vista.

Aby zainstalować nowe języki w systemie Microsoft Windows XP:

  1. Kliknij przycisk Start na pasku zadań.
  2. Kliknij polecenie Panel sterowania > Opcje regionalne i językowe.
  3. Przejdź do karty Języki i wybierz następujące opcje:
    • dla arabskiego, hebrajskiego, jidysz i tajskiego wybierz opcję Zainstaluj pliki dla języków o złożonej pisowni i języków z pisownią od prawej do lewej (łącznie z tajskim)
    • dla japońskiego, chińskiego i koreańskiego wybierz opcję Zainstaluj pliki dla języków wschodnioazjatyckich

.

  1. Kliknij przycisk OK.

Zalecane czcionki

Do rozpoznawania tekstów w językach arabskim, hebrajskim, jidysz, tajskim, chińskim, japońskim i koreańskim może być konieczne zainstalowanie dodatkowych czcionek w systemie Windows. Poniższa tabela zawiera wykaz zalecanych czcionek dla tekstów w tych językach.

Język rozpoznawania OCR Zalecana czcionka
Arabski Arial™ Unicode™ MS*
Hebrajski Arial™ Unicode™ MS*
Jidysz Arial™ Unicode™ MS*
Tajski

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chiński (uproszczony),

Chiński (tradycyjny),

Japoński, Koreański,

Koreański (Hangul)

Arial™ Unicode™ MS*

Czcionki SimSun

Na przykład: SimSun (Founder Extended), SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (dla-ISO10646)

STSong

* Ta czcionka jest instalowana razem z systemem Microsoft Windows XP oraz pakietem Microsoft Office 2000 i nowszymi.

Poniżej znajdują się rady dotyczące maksymalizacji dokładności rozpoznawania.

Wyłączanie automatycznego przetwarzania

Domyślnie każda strona dodawana do dokumentu programu ABBYY FineReader jest rozpoznawana automatycznie.

Jednak jeżeli dokument zawiera tekst w języku CJK (chińskim, japońskim lub koreańskim) połączony z tekstem w języku europejskim, zalecamy wyłączenie automatycznego wykrywania orientacji strony i używanie opcji podziału podwójnych stron wyłącznie w sytuacji, gdy wszystkie obrazy mają poprawną orientację (w szczególności nie zostały zeskanowane górą do dołu).

Opcje Wykryj orientację strony i Podziel strony sąsiadujące można włączyć i wyłączyć na karcie Skanuj/Otwórz okna dialogowego Opcje.

Uwaga: aby podzielić strony sąsiadujące w języku arabskim, hebrajskim lub jidysz, należy najpierw wybrać odpowiedni język rozpoznawania, a dopiero potem zaznaczyć opcję Podziel strony sąsiadujące. Zagwarantuje to ułożenie stron we właściwej kolejności. Można też zachować oryginalną numerację stron, korzystając z opcji Zamień strony książki. Szczegółowe informacje znajdują się w części „Co to jest dokument programu FineReader?”.

Jeżeli dokument ma złożoną strukturę, to zalecamy wyłączenie automatycznej analizy i rozpoznawania OCR i wykonanie tych operacji ręcznie.

Aby wyłączyć automatyczną analizę i rozpoznawanie OCR:

  1. Otwórz okno dialogowe Opcje (Narzędzia>Opcje…).
  2. Usuń zaznaczenie opcji Automatycznie przetwarzaj dodawane strony na karcie Skanuj/Otwórz.
  3. Kliknij przycisk OK.

Rozpoznawanie dokumentów napisanych w więcej niż jednym języku

W poniższej instrukcji użyto jako przykładu dokumentu zawierającego tekst angielski i chiński.

  1. Na głównym pasku narzędzi z listy rozwijanej Języki dokumentu wybierz pozycję Więcej języków…. W oknie dialogowym Edytor języka wybierz opcję Wybierz języki ręcznie, po czym z listy języków wybierz chiński i angielski.
  2. Zeskanuj lub otwórz obrazy.
  3. Jeśli program nie wykryje wszystkich obszarów obrazu:
    • Określ obszary ręcznie przy użyciu narzędzi do edycji obszarów.
    • Określ obszary zawierające tylko jeden język. W tym celu zaznacz je i określ ich język w panelu Właściwości obszaru.

Ważne! Język można wybierać wyłącznie dla obszarów tego samego typu. W przypadku wybrania obszarów różnych typów, np. tekst i tabela, nie będzie możliwe określenie języka.

  1. Kliknij przycisk Rozpoznaj na głównym pasku narzędzi.

Jeśli nieeuropejskie znaki nie są wyświetlane w oknie Tekst

Jeżeli tekst w języku CJK jest wyświetlany nieprawidłowo w oknie Tekst, prawdopodobnie wybrano tryb Zwykły tekst.

Aby zmienić czcionkę używaną w trybie Zwykły tekst:

  1. Otwórz okno dialogowe Opcje (Narzędzia>Opcje…).
  2. Kliknij kartę Widok.
  3. Wybierz wartość Arial Unicode MS z menu rozwijanego Czcionka używana do wyświetlania zwykłego tekstu.
  4. Kliknij przycisk OK.

Jeśli tekst w oknie Tekst nadal jest wyświetlany nieprawidłowo, przeczytaj temat „Jeśli zamiast niektórych znaków wstawiane są symbole „?” lub „□” w oknie Tekst”.

Zmiana kierunku rozpoznanego tekstu

Program ABBYY FineReader wykrywa kierunek tekstu automatycznie, ale można to zrobić też ręcznie.

  1. W oknie Tekst wybierz jeden lub więcej akapitów.
  2. Kliknij przycisk na pasku narzędzi okna Tekst.

Uwaga: Można użyć opcji z listy rozwijanej Kierunek tekstu CJK w oknie Obraz, aby określić kierunek tekstu przed rozpoznawaniem. Szczegółowe informacje znajdują się w części Jeśli tekst pionowy lub odwrócony nie jest rozpoznawany.

14.01.2020 17:26:20

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.