Práce s jazyky se složitým písmem

S aplikací ABBYY FineReader lze rozpoznávat dokumenty v arabštině, hebrejštině, jidiš, thajštině, čínštině, japonštině a korejštině. Při práci s dokumenty v čínštině, japonštině a korejštině a s dokumenty, v nichž je použita kombinace těchto tří jazyků s jazyky evropskými, je nutno brát v úvahu některé další faktory.

Doporučené druhy písma

Rozpoznávání textů v arabštině, hebrejštině, jidiš, thajštině, čínštině, japonštině a korejštině může vyžadovat instalaci dalších písem. Níže uvedená tabulka uvádí doporučená písma pro texty v těchto jazycích.

jazyky OCR Doporučený druh písma
Arabština Arial™ Unicode™ MS
Hebrejština Arial™ Unicode™ MS
Jidiš Arial™ Unicode™ MS
Thajština

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Čínština (zjednodušená)

Čínština (tradiční)

Japonština, korejština

Korejština (hangul)

Arial™ Unicode™ MS

Písma SimSun, např.:

Example SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming(for-ISO10646)

STSong

Níže uvedené části obsahují rady ohledně zvýšení přesnosti rozpoznávání.

Zakázání automatického zpracování obrazu

Ve výchozím nastavení se všechny stránky přidané do projektu OCR rozpoznávají automaticky.

Pokud však dokument obsahuje text tvořený písmem čínštiny, korejštiny nebo japonštiny v kombinaci s evropským jazykem, doporučujeme zakázat automatické zjišťování orientace stránky a možnost rozdělení dvojstran použít jen tehdy, když všechny obrazy stránek mají správnou orientaci (např. nejsou skenovány vzhůru nohama).

Možnosti Opravit orientaci stránky a Rozdělit protilehlé stránky můžete povolit/zakázat na kartě  Zpracování obrazů dialogového okna Možnosti (klikněte na Nástroje > Možnosti..., aby se toto dialogové okno otevřelo).

Pro rozdělení protilehlých stran v arabštině, hebrejštině nebo v jidiš nezapomeňte nejprve zvolit odpovídající jazyk OCR. Teprve potom zvolte možnost Rozdělit protilehlé stránky. Původní číslování stránek můžete také obnovit volbou možnosti Přepnout stránky knihy. Viz také: Projekty OCR.

Má-li váš dokument složitou strukturu, doporučujeme zakázat automatickou analýzu a OCR pro obrázky a provádět tyto operace ručně.

Automatickou analýzu a OCR nově přidaných obrazů můžete vypnout na kartě Zpracování obrazů dialogového okna Možnosti (klikněte na Nástroje > Možnosti..., aby se toto dialogové okno otevřelo).

  1. Klikněte na Nástroje > Možnosti... aotevřete dialogové okno Možnosti.
  2. Na kartě Zpracování obrazů vymažte možnost  Automaticky zpracovávat obrazy stránek po jejich přidání do editoru OCR.
  3. Klikněte na OK.

Rozpoznávání dokumentů napsaných ve více jazycích

Níže uvedené pokyny mají sloužit jako příklad a vysvětlují, jak rozpoznat dokument, který obsahuje text v angličtině i v čínštině. Dokumenty obsahující jiné jazyky lze rozpoznávat podobným způsobem.

  1. Na hlavním panelu nástrojů vyberte ze seznamu jazyků Další jazyky.... V dialogovém okně Jazykový editor zvolte možnost Zadat jazyky OCR ručně a ze seznamu jazyků vyberte činštinu a angličtinu.
  2. Skenujte stránky nebo otevírejte obrazy.
  3. Nerozpozná-li program všechny oblasti obrazu:
    • Označte oblasti ručně pomocí nástrojů pro úpravy oblastí
    • Určete libovolné oblasti obsahující pouze jeden jazyk a na Vlastnosti oblasti vyberte jako odpovídající jazyk angličtinu nebo činštinu.
      Jazyk lze zadat jen pro oblasti stejného typu. Pokud jste vybrali oblasti různých typů, např. Text a Tabulku, nebude jazyk možno zadat.
    • V případě potřeby vyberte směr textu z rozevíracího seznamu Orientace (podrobnosti viz kapitolu Pokud není rozpoznán svislý nebo invertovaný text)
    • Pro texty v čínštině, korejštině nebo japonštině program nabízí výběr směru textu v rozevíracím seznamu Směr textu CJK (podrobnosti viz kapitolu Úprava vlastností oblasti).

Pokud se neevropské znaky nezobrazují v podokně Text

Pokud se nějaký jazyk ze skupiny CJK (čínština, japonština a korejština) v podokněText nezobrazil správně, je možné, že byl zvolen režim Prostý text.

Chcete-li změnit písmo použité v režimu Prostý text:

  1. Klikněte na Nástroje > Možnosti... aotevřet dialogové okno Možnosti.
  2. Klikněte na kartu Oblasti a text.
  3. Vyberte písmo Arial Unicode MS z rozevíracího seznamu Písmo použité k zobrazení prostého textu.
  4. Klikněte na OK.

Pokud to nepomohlo a text v okně Text se stále nezbrazuje správně, podívejte se do kapitoly Pokud je použito nesprávné písmo nebo jsou určité znaky nahrazeny znaky „?“ nebo „□“.

Změna směru rozpoznaného textu

Aplikace ABBYY FineReader automaticky zjišťuje směr textu, ale můžete jej zadat i ručně.

  1. Aktivujte podokno Text.
  2. Vyberte jeden nebo více odstavců.
  3. Klikněte na tlačítko na panelu nástrojů v podokně Text.

Lze také použít rozevírací seznam Směr textu CJK v podokně Obrázek a před procesem OCR zadat směr textu. Viz také: Úprava vlastností oblasti.

02.11.2018 16:19:14


Please leave your feedback about this article