Práca s jazykmi so zložitým zápisom

S programom ABBYY FineReader môžete rozpoznávať dokumenty v arabčine, hebrejčine, jidiš, thajčine, čínštine, japončine a kórejčine. Pri práci s dokumentmi v čínštine, japončine alebo kórejčine a dokumentmi, kde sa používa kombinácia čínskeho, japonského alebo kórejského jazyka a európskeho jazyka, je potrebné vziať do úvahy niektoré ďalšie okolnosti.

Odporúčané písma

Rozpoznávanie textu v arabčine, hebrejčine, jidiš, thajčine, čínštine, japončine a kórejčine si môže vyžadovať inštaláciu ďalších písiem. Tabuľka uvedená nižšie obsahuje zoznam odporúčaných písem na prácu v týchto jazykoch.

Jazyky OCR Odporúčané písmo
Arabský Arial™ Unicode™ MS
Hebrejský Arial™ Unicode™ MS
jidiš Arial™ Unicode™ MS
Thajský

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

čínština (zjednodušená)

čínština (tradičná)

japončina, kórejčina

kórejčina (Hangul)

Arial™ Unicode™ MS

Písma SimSun, napríklad:

Príklad SimSun (Founder Extended),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (pre ISO10646)

STSong

Nasledujúce časti obsahujú odporúčania na zlepšenie presnosti rozpoznávania.

Vypnutie automatického spracovania snímky

Všetky strany, ktoré pridáte do projektu OCR, sa podľa predvoleného nastavenia automaticky rozpoznajú.

V prípade, že dokument obsahuje kombináciu textu napísaného v čínskom, japonskom alebo kórejskom jazyku spolu s textom v európskom jazyku, odporúčame, aby ste funkciu automatického rozpoznávania orientácie strany deaktivovali a možnosť rozdelenia dvojstrán používali len v takom prípade, ak majú všetky strany snímky správnu orientáciu (napr. neboli naskenované naopak).

Možnosti Upraviť orientáciu strany a Rozdeliť dvojstrany môžete zapnúť alebo vypnúť na karte Spracovanie obrazu dialógového okna Možnosti (toto dialógové okno otvorte kliknutím na Nástroje > Možnosti...).

Ak chcete rozdeliť protiľahlé strany napísané v arabčine, hebrejčine alebo jidiš, nezabudnite najprv vybrať príslušný jazyk OCR a až potom vyberte možnosť Rozdeliť dvojstrany. Pôvodné číslovanie strán môžete obnoviť aj výberom možnosti Vymeniť strany knihy. Pozrite tiež: Projekty OCR .

Ak má dokument zložitú štruktúru, odporúčame vypnúť automatickú analýzu a rozpoznávanie OCR pre snímky a vykonávať tieto činnosti manuálne.

Automatickú analýzu a OCR nových pridaných snímok môžete vypnúť na karte Spracovanie obrazu dialógového okna Možnosti (toto dialógové okno otvorte kliknutím na Nástroje > Možnosti...).

  1. Kliknite na Nástroje > Možnosti..., abyste otvorili dialógové okno Možnosti.
  2. Na karte Spracovanie obrazu zrušte začiarknutie možnosti  Automaticky spracovať snímky strán pri ich pridaní do editora OCR.
  3. Kliknite na OK.

Rozpoznávanie dokumentov napísaných vo viacerých jazykoch

Pokyny uvedené nižšie sú uvedené ako príklad a vysvetľujú, ako rozpoznať dokument obsahujúci anglický aj čínsky text. Dokumenty obsahujúce iné jazyky je možné rozpoznať podobným spôsobom.

  1. Na hlavnom paneli s nástrojmi vyberte Ďalšie jazyky... v zozname jazykov. V dialógovom okne Editor jazykov vyberte Zadajte jazyky OCR manuálne a v zozname jazykov vyberte čínštinu a angličtinu.
  2. Naskenujte strany alebo otvorte snímky.
  3. Ak program nedokáže rozpoznať niektoré oblasti na snímke:
    • Určte oblasti manuálne pomocou nástrojov na úpravu oblasti
    • Určte všetky oblasti, ktoré obsahujú len jeden jazyk, a podľa potreby vyberte Vlastnosti oblasti angličtinu alebo čínštinu.
      Jazyk je možné určiť len pre oblasti rovnakého typu. Ak ste vybrali oblasti rôznych typov, ako napríklad Text a tabuľka, nebudete môcť zadať jazyk.
    • V prípade potreby vyberte smer textu z rozbaľovacieho zoznamu Orientácia (podrobnosti nájdete v téme Ak nebol správne rozpoznaný zvislý alebo invertovaný text)
    • Pre texty v čínskom, japonskom alebo kórejskom jazyku ponúka program výber smerov textu v rozbaľovacom zozname Smer textu CJK (podrobnosti nájdete v téme Úprava vlastností oblasti).

Ak sa nezobrazujú neeurópske znaky v table Text

Ak sa text v čínskom, japonskom alebo kórejskom jazyku zobrazuje nesprávne v tableText , pravdepodobne ste vybrali režim Iba text.

Ak chcete zmeniť písmo použité v režime Iba text:

  1. Kliknite na Nástroje > Možnosti..., abyste otvorili dialógové okno Možnosti.
  2. Kliknite na kartu Oblasti a text.
  3. V rozbaľovacom zozname Písmo použité na zobrazovanie obyčajného textu vyberte Arial Unicode MS.
  4. Kliknite na OK.

Ak to nepomohlo a text v okne Text sa stále zobrazuje nesprávne, pozrite si časť Používa sa nesprávne písmo alebo niektoré znaky sú nahradené za „?“ alebo „□“.

Zmena smeru rozpoznaného textu

Program ABBYY FineReader zisťuje smer textu automaticky, ale smer textu môžete určiť aj manuálne.

  1. Aktivujte tablu Text.
  2. Vyberte jeden alebo viac odsekov.
  3. Kliknite na tlačidlo na paneli s nástrojmi na table Text.

Môžete použiť rozbaľovací zoznam Smer textu CJK na table Snímka na určenie smeru textu pred rozpoznávaním OCR. Pozrite tiež: Úprava vlastností oblasti.

02.11.2018 16:19:56


Please leave your feedback about this article