Az OCR előtt figyelembe veendő dokumentumjellemzők

A képminőségnek jelentős hatása van az OCR minőségére. Ebben a témakörben elmagyarázzuk, hogy milyen tényezőket kell figyelembe venni a képek felismerése előtt.

OCR-nyelvek

Az ABBYY FineReader egy- és többnyelvű (pl. két vagy több nyelven írott) dokumentumokat egyaránt fel tud ismerni. Többnyelvű dokumentumok esetén több OCR-nyelvet kell megadnia.

Az OCR-nyelvek kiválasztásához kattintson a Beállítások >  Nyelvek és jelölje be a következő beállítások egyikét:

  • Az OCR-nyelvek automatikus kiválasztása az alábbi listából
    Az ABBYY FineReader automatikusan választja ki a megfelelő nyelveket a felhasználói nyelvlistából. A nyelvlista szerkesztése:
    1. Győződjön meg róla, hogy bejelölte-e a Az OCR-nyelvek automatikus kiválasztása az alábbi listából beállítást.
    2. Kattintson a Megadás... gombra.
    3. A Nyelvek párbeszédpanelen válassza ki a kívánt nyelveket, majd kattintson a OK.
    4. A Beállítások párbeszédpanelen kattintson az OK gombra.
  • Adja meg kézzel az OCR-nyelveket
    Ezt a beállítást akkor jelölje be, ha a szükséges nyelv nem szerepel a listában.

Adjon meg egy vagy több nyelvet az alábbi párbeszédpanelen. Ha gyakran használ egy bizonyos nyelvkombinációt, akkor új csoportot hozhat létre ezekhez a nyelvekhez.

Ha egy nyelv nem szerepel a listán, akkor:

  1. Vagy nem támogatja az ABBYY FineReader, vagy
    A támogatott nyelvek teljes listája a Támogatott OCR-nyelvek témakörben található.
  2. Az Ön termékverziója nem támogatja.
    Az Ön termékverziójában elérhető teljes nyelvlista a Licencek párbeszédpanelen található (kattintson a Súgó > Névjegy... > Licencadatok ennek a párbeszédpanelnek a megnyitásához).

A beépített nyelvek és nyelvcsoportok használatán kívül saját nyelvek és csoportok is létrehozhatók. Lásd még: Ha bizonyos karaktereket nem sikerül felismernie a programnak.

Nyomtatási típus

A dokumentumok különféle eszközzel nyomtathatók ki, például írógéppel és faxkészülékkel. Az OCR minősége a dokumentum kinyomtatásától függően változhat. Az OCR minőségét a Beállítások párbeszédpanelen a helyes nyomtatási típus kiválasztásával javíthatja.

A program automatikusan észleli a legtöbb dokumentum nyomtatási típusát. Az automatikus nyomtatási típus észleléséhez be kell jelölni a Auto beállítást a Dokumentum típusa beállításcsoportban a Beállítások párbeszédpanelen található (kattintson a Eszközök > Beállítások... > OCR ezeknek a beállításoknak az eléréséhez). A dokumentumok teljes színes vagy fekete-fehér módban dolgozhatók fel.

A nyomtatási típust szükség szerint kézzel is kiválaszthatja.

Példa írógéppel írott szövegre. Az összes betű egyenlő szélességű (hasonlítsa össze például a "w" és a "t" betűt). Az ilyen típusú szövegekhez válassza a Írógép típust.
Példa faxkészülékkel előállított szövegre. Ahogy a példából látható, néhány helyen nem tiszták a betűk. Némi zaj és torzítás is tapasztalható. Az ilyen típusú szövegekhez válassza a Fax típust.

A gépelt szövegek vagy faxok felismerése után ügyeljen arra, hogy bejelölje az Auto beállítást a hagyományosan nyomtatott dokumentumok feldolgozása előtt.

Nyomtatási minőség

A "zajos" (pl. véletlenszerű fekete pontok vagy foltok), gyenge minőségű dokumentumok, elmosódott és egyenlőtlen betűk vagy ferde sorok és eltolódott táblázatszegélyek konkrét beolvasási beállításokat követelhetnek meg.

Fax Újság

A gyenge minőségű dokumentumokat a legjobb szürkeárnyalatos módban beolvasni. Szürkeárnyalatos módban való beolvasáskor a program automatikusan választja ki a fényerő optimális értékét.

A szürkeárnyalatos beolvasási mód több információt őriz meg a beolvasott szövegben lévő betűkről, amivel közepes és gyenge minőségű dokumentumok felismerésekor jobb OCR-eredmény érhető el. Néhány hibát a Képszerkesztőben elérhető képszerkesztő eszközök használatával kézzel is kijavíthat. Lásd még: Ha hibák vannak a dokumentumképen, és alacsony az OCR pontossága.

Színmód

Ha nem kell megőriznie egy színes dokumentum eredeti színeit, akkor fekete-fehér módban dolgozhatja fel a dokumentumot. Ez nagymértékben csökkenti az eredményül kapott OCR-projekt méretét, és felgyorsítja az OCR-folyamatot. Csekély kontrasztú képek fekete-fehérben való feldolgozása azonban gyenge OCR-minőséget eredményezhet. Fényképek, magazinoldalak, valamint kínai, japán és koreai nyelvű szövegek fekete-fehér feldolgozását sem ajánljuk.

Tipp: A színes és fekete-fehér dokumentumok OCR-jét a Gyors felismerés beállítás bejelölésével a OCR fülön a Beállítások párbeszédpanelen gyorsíthatja fel. A felismerési módokról bővebben lásd az OCR-beállítások témakört.

Néhány további ajánlás a megfelelő színmód kiválasztásához a Képolvasási tippek témakörben található.

A dokumentum fekete-fehérbe konvertálása után a színek nem állíthatók vissza. Színes dokumentumhoz való hozzájutáshoz nyissa meg a színes képeket tartalmazó fájlt, vagy olvassa be színes módban a papíralapú dokumentumot.

02.11.2018 16:19:24


Please leave your feedback about this article