Praca z językami o złożonej pisowni

Przy użyciu programu ABBYY FineReader można rozpoznawać dokumenty w językach: arabskim, hebrajskim, jidysz, tajskim, chińskim, japońskim i koreańskim. Podczas pracy z dokumentami po chińsku, japońsku i koreańsku oraz zawierającymi kombinacje tych języków z europejskimi należy uwzględnić pewne dodatkowe aspekty.

Zalecane czcionki

Do rozpoznawania tekstów w językach arabskim, hebrajskim, jidysz, tajskim, chińskim, japońskim i koreańskim może być konieczne zainstalowanie dodatkowych czcionek. Poniższa tabela zawiera wykaz zalecanych czcionek dla tekstów w tych językach.

Języki OCR Zalecana czcionka
Arabski Arial™ Unicode™ MS
Hebrajski Arial™ Unicode™ MS
Jidysz Arial™ Unicode™ MS
Tajski

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chiński (uproszczony)

Chiński (tradycyjny)

Japoński, koreański

Koreański (Hangul)

Arial™ Unicode™ MS

Czcionki SimSun, np.:

Example SimSun (rozbudowana przez twórcę),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (dla-ISO10646)

STSong

Poniżej znajdują się rady dotyczące maksymalizacji dokładności rozpoznawania.

Wyłączanie automatycznego przetwarzania obrazu

Wszystkie strony dodane do projektu OCR są domyślnie automatycznie rozpoznawane.

Jednak jeżeli dokument zawiera tekst w języku chińskim, japońskim lub koreańskim połączony z tekstem w języku europejskim, zalecamy wyłączenie automatycznego wykrywania orientacji strony i używanie opcji podziału podwójnych stron wyłącznie w sytuacji, gdy wszystkie obrazy mają poprawną orientację (w szczególności nie zostały zeskanowane górą do dołu).

Możesz włączyć/wyłączyć opcje Popraw orientację strony i Podziel strony sąsiadujące na karcie Przetwarzanie obrazów okna dialogowego Opcje (kliknij Narzędzia > Opcje... aby otworzyć to okno dialogowe).

Aby podzielić strony sąsiadujące w języku arabskim, hebrajskim lub jidysz, należy najpierw wybrać odpowiedni język rozpoznawania, a dopiero potem zaznaczyć opcję Podziel strony sąsiadujące. Można też przywrócić oryginalną numerację stron, korzystając z opcji Zamień strony książki. Zobacz również: Projekty OCR.

Jeśli dokument ma skomplikowaną strukturę, zalecamy wyłączenie automatycznej analizy i OCR dla obrazów i ręczne wykonanie tych czynności.

Automatyczną analizę nowo dodanych obrazów można wyłączyć na karcie Przetwarzanie obrazów okna dialogowego Opcje (kliknij Narzędzia > Opcje... aby otworzyć to okno dialogowe).

  1. Kliknij Narzędzia > Opcje... abyotworzyć okno Opcje.
  2. Na karcie Przetwarzanie obrazów usuń zaznaczenie opcji  Automatycznie przetwarzaj obrazy stron, gdy tylko zostaną dodane do edytora OCR.
  3. Kliknij OK.

Rozpoznawanie dokumentów napisanych w więcej niż jednym języku

Poniższe instrukcje służą jako przykład i objaśnienie, jak rozpoznać dokument zawierający tekst w językach chińskim i angielskim. W podobny sposób można rozpoznać dokumenty napisane w innych językach.

  1. Na głównym pasku narzędzi wybierz pozycję Więcej języków... z listy języków. W oknie dialogowym Edytor języka zaznacz opcję Podaj ręcznie języki OCR i z listy języków wybierz chiński i angielski.
  2. Zeskanuj strony lub otwórz obrazy.
  3. Jeśli program nie wykryje wszystkich obszarów obrazu:
    • Określ obszary ręcznie za pomocą narzędzi do edytowania obszarów
    • Określ obszary zawierające tylko jeden język i w Właściwości obszaru wybierz odpowiednio angielski lub chiński.
      Język można wybierać wyłącznie dla obszarów tego samego typu. Jeśli zostaną wybrane obszary różnych typów, np. Tekst i Tabela, możliwość określenia języka będzie niedostępna.
    • W razie potrzeby wybierz kierunek tekstu na liście rozwijanej Orientacja (szczegółowe informacje znajdują się w części Jeśli tekst pionowy lub odwrócony nie został rozpoznany)
    • W przypadku tekstów w językach chińskim, japońskim i koreańskim program umożliwia wybór kierunku za pomocą listy rozwijanej Kierunek tekstu CJK (szczegółowe informacje znajdują się w części Edytowanie właściwości obszarów).

Jeśli nieeuropejskie znaki nie są wyświetlane w okienku Tekst

Jeśli tekst w języku chińskim, japońskim lub koreańskim jest niepoprawnie wyświetlany w okienkuTekst możliwe, że wybrano tryb Zwykły tekst.

Aby zmienić czcionkę używaną w trybie Zwykły tekst:

  1. Kliknij Narzędzia > Opcje... abyotworzyć okno Opcje.
  2. Kliknij zakładkę Obszary i tekst.
  3. Z listy rozwijanej Czcionka używana do wyświetlania zwykłego tekstu wybierz pozycję Arial Unicode MS.
  4. Kliknij OK.

Jeśli to nie pomogło i tekst w oknie Tekst nadal jest wyświetlany niepoprawnie, zobacz Użyta jest nieprawidłowa czcionka lub niektóre znaki zostały zmienione na „?” albo „□”.

Zmiana kierunku rozpoznanego tekstu

Program ABBYY FineReader wykrywa kierunek tekstu automatycznie, ale można zrobić to ręcznie.

  1. Włącz okienko Tekst.
  2. Zaznacz jeden lub więcej akapitów.
  3. Kliknij przycisk na pasku narzędzi w okienku Tekst.

Przy użyciu listy rozwijanej Kierunek tekstu CJK w okienku Obraz możesz określić kierunek tekstu przed rozpoczęciem procesu OCR. Zobacz również: Edytowanie właściwości obszaru.

07.09.2020 20:12:25


Please leave your feedback about this article