Praca z językami o złożonej pisowni

Przy użyciu programu ABBYY FineReader można rozpoznawać dokumenty w językach: arabskim, hebrajskim, jidysz, tajskim, chińskim, japońskim i koreańskim. Podczas pracy z dokumentami po chińsku, japońsku i koreańsku oraz zawierającymi kombinacje tych języków z europejskimi należy uwzględnić pewne dodatkowe aspekty.

Instalowanie pomocy językowej

Aby móc rozpoznawać teksty po arabsku, hebrajsku, jidysz, tajsku, chińsku, japońsku i koreańsku, może być konieczne zainstalowanie tych języków.

Języki te są obsługiwane domyślnie w systemach Microsoft Windows 8, Windows 7 oraz Windows Vista.

Aby zainstalować nowe języki w systemie Microsoft Windows XP:

  1. Kliknij przycisk Start na pasku zadań.
  2. Kliknij polecenie Panel sterowania > Opcje regionalne i językowe.
  3. Przejdź do karty Języki i wybierz następujące opcje:
    • dla arabskiego, hebrajskiego, jidysz i tajskiego wybierz opcję Zainstaluj pliki dla języków o złożonej pisowni i języków z pisownią od prawej do lewej (łącznie z tajskim)
    • dla japońskiego, chińskiego i koreańskiego wybierz opcję Zainstaluj pliki dla języków wschodnioazjatyckich

.

  1. Kliknij przycisk OK.

Zalecane czcionki

Do rozpoznawania tekstów w językach arabskim, hebrajskim, jidysz, tajskim, chińskim, japońskim i koreańskim może być konieczne zainstalowanie dodatkowych czcionek w systemie Windows. Poniższa tabela zawiera wykaz zalecanych czcionek dla tekstów w tych językach.

Język rozpoznawania OCR Zalecana czcionka
Arabski Arial™ Unicode™ MS*
Hebrajski Arial™ Unicode™ MS*
Jidysz Arial™ Unicode™ MS*
Tajski

Arial™ Unicode™ MS*

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chiński (uproszczony),

Chiński (tradycyjny),

Japoński, Koreański,

Koreański (Hangul)

Arial™ Unicode™ MS*

Czcionki SimSun

Na przykład: SimSun (Founder Extended), SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (dla-ISO10646)

STSong

* Ta czcionka jest instalowana razem z systemem Microsoft Windows XP oraz pakietem Microsoft Office 2000 i nowszymi.

Poniżej znajdują się rady dotyczące maksymalizacji dokładności rozpoznawania.

Wyłączanie automatycznego przetwarzania

Domyślnie każda strona dodawana do dokumentu programu ABBYY FineReader jest rozpoznawana automatycznie.

Jednak jeżeli dokument zawiera tekst w języku CJK (chińskim, japońskim lub koreańskim) połączony z tekstem w języku europejskim, zalecamy wyłączenie automatycznego wykrywania orientacji strony i używanie opcji podziału podwójnych stron wyłącznie w sytuacji, gdy wszystkie obrazy mają poprawną orientację (w szczególności nie zostały zeskanowane górą do dołu).

Opcje Wykryj orientację strony i Podziel strony sąsiadujące można włączyć i wyłączyć na karcie Skanuj/Otwórz okna dialogowego Opcje.

Uwaga: aby podzielić strony sąsiadujące w języku arabskim, hebrajskim lub jidysz, należy najpierw wybrać odpowiedni język rozpoznawania, a dopiero potem zaznaczyć opcję Podziel strony sąsiadujące. Zagwarantuje to ułożenie stron we właściwej kolejności. Można też zachować oryginalną numerację stron, korzystając z opcji Zamień strony książki. Szczegółowe informacje znajdują się w części „Co to jest dokument programu FineReader?”.

Jeżeli dokument ma złożoną strukturę, to zalecamy wyłączenie automatycznej analizy i rozpoznawania OCR i wykonanie tych operacji ręcznie.

Aby wyłączyć automatyczną analizę i rozpoznawanie OCR:

  1. Otwórz okno dialogowe Opcje (Narzędzia>Opcje…).
  2. Usuń zaznaczenie opcji Automatycznie przetwarzaj dodawane strony na karcie Skanuj/Otwórz.
  3. Kliknij przycisk OK.

Rozpoznawanie dokumentów napisanych w więcej niż jednym języku

W poniższej instrukcji użyto jako przykładu dokumentu zawierającego tekst angielski i chiński.

  1. Na głównym pasku narzędzi z listy rozwijanej Języki dokumentu wybierz pozycję Więcej języków…. W oknie dialogowym Edytor języka wybierz opcję Wybierz języki ręcznie, po czym z listy języków wybierz chiński i angielski.
  2. Zeskanuj lub otwórz obrazy.
  3. Jeśli program nie wykryje wszystkich obszarów obrazu:
    • Określ obszary ręcznie przy użyciu narzędzi do edycji obszarów.
    • Określ obszary zawierające tylko jeden język. W tym celu zaznacz je i określ ich język w panelu Właściwości obszaru.

Ważne! Język można wybierać wyłącznie dla obszarów tego samego typu. W przypadku wybrania obszarów różnych typów, np. tekst i tabela, nie będzie możliwe określenie języka.

  1. Kliknij przycisk Rozpoznaj na głównym pasku narzędzi.

Jeśli nieeuropejskie znaki nie są wyświetlane w oknie Tekst

Jeżeli tekst w języku CJK jest wyświetlany nieprawidłowo w oknie Tekst, prawdopodobnie wybrano tryb Zwykły tekst.

Aby zmienić czcionkę używaną w trybie Zwykły tekst:

  1. Otwórz okno dialogowe Opcje (Narzędzia>Opcje…).
  2. Kliknij kartę Widok.
  3. Wybierz wartość Arial Unicode MS z menu rozwijanego Czcionka używana do wyświetlania zwykłego tekstu.
  4. Kliknij przycisk OK.

Jeśli tekst w oknie Tekst nadal jest wyświetlany nieprawidłowo, przeczytaj temat „Jeśli zamiast niektórych znaków wstawiane są symbole „?” lub „□” w oknie Tekst”.

Zmiana kierunku rozpoznanego tekstu

Program ABBYY FineReader wykrywa kierunek tekstu automatycznie, ale można to zrobić też ręcznie.

  1. W oknie Tekst wybierz jeden lub więcej akapitów.
  2. Kliknij przycisk na pasku narzędzi okna Tekst.

Uwaga: Można użyć opcji z listy rozwijanej Kierunek tekstu CJK w oknie Obraz, aby określić kierunek tekstu przed rozpoznawaniem. Szczegółowe informacje znajdują się w części Jeśli tekst pionowy lub odwrócony nie jest rozpoznawany.

1/14/2020 5:26:20 PM


Please leave your feedback about this article