Trabajar con idiomas de escritura compleja

Con ABBYY FineReader, puede reconocer documentos en árabe, hebreo, yiddish, tailandés, chino, japonés y coreano. Deben tenerse en cuenta algunos factores adicionales cuando se trabaja con documentos en chino, japonés o coreano y con documentos en los cuales se utiliza una combinación de CJK e idiomas europeos.

Fuentes recomendadas

El reconocimiento del texto en árabe, hebreo, yiddish, tailandés, chino, japonés y coreano puede necesitar instalar fuentes adicionales. La siguiente tabla enumera las fuentes recomendadas para los textos en estos idiomas.

Idiomas de OCR Fuente recomendada
Árabe Arial™ Unicode™ MS
Hebreo Arial™ Unicode™ MS
Yiddish Arial™ Unicode™ MS
Tailandés

Arial™ Unicode™ MS

Aharoni

David

Levenim mt

Miriam

Narkisim

Rod

Chino (simplificado)

Chino (tradicional)

Japonés, coreano

Coreano (Hangul)

Arial™ Unicode™ MS

Fuentes SimSun como:

Ejemplo SimSun (fundador extendido),

SimSun-18030, NSimSun.

Simhei

YouYuan

PMingLiU

MingLiU

Ming (para ISO 10646)

STSong

Las siguientes secciones contienen consejos para mejorar la precisión del reconocimiento.

Desactivar el procesamiento automático de imágenes

Por defecto, las página que añade a un proyecto de OCR se reconocen automáticamente.

Sin embargo, si su documento contiene texto en un idioma CJK combinado con un idioma europeo, recomendamos deshabilitar la detección automática de la orientación de la página y usar la opción de división de página dual solo si todas las imágenes de la página tienen la orientación correcta (por ejemplo, no se digitalizaron al revés).

Puede habilitar/deshabilitar las opciones Corregir orientación de página y Dividir páginas opuestas en la Preprocesamiento de imágenes pestaña del Opciones cuadro de diálogo (haga clic en Herramientas > Opciones... para abrirlo).

Para dividir páginas opuestas en árabe, hebreo o yiddish, asegúrese de seleccionar el idioma OCR correspondiente primero y solo entonces seleccione la Dividir páginas opuestas opción. También puede restaurar la numeración de la página original seleccionando la Intercambiar páginas del libro opción. Consulte también: Proyectos de OCR.

Si su documento tiene una estructura compleja, recomendamos deshabilitar el análisis automático y el OCR para imágenes y realizar estas operaciones manualmente.

Puede desactivar el análisis y OCR automáticos de las imágenes recién agregadas en la Preprocesamiento de imágenes pestaña del Opciones cuadro de diálogo (haga clic en Herramientas > Opciones... para abrirlo).

  1. Haga clic Herramientas > Opciones... para abrir la Opciones cuadro de diálogo.
  2. En la Preprocesamiento de imágenes pestaña, deseleccione la Procesar automáticamente las imágenes de página a medida que se añadan al editor de OCR opción.
  3. Haga clic Aceptar.

Reconocer documentos escritos en más de un idioma

Las siguientes instrucciones se ofrecen como ejemplo y explican cómo reconocer un documento que contiene texto en inglés y en chino. Los documentos que contienen otros idiomas pueden reconocerse de forma similar.

  1. En la barra de herramientas principal, seleccione Más idiomas... de la lista de idiomas. En el Editor de idiomas cuadro de diálogo, seleccione Especificar manualmente los idiomas de OCR y seleccione chino e inglés de la lista de idiomas.
  2. Digitalice sus páginas o abra sus imágenes.
  3. Si el programa no detecta todas las áreas de una imagen:
    • Especifique las áreas manualmente usando las herramientas de edición de área
    • Especifique las áreas que solo contienen un idioma y en el Propiedades del área seleccione inglés o chino según corresponda.
      Un idioma solo puede especificarse para áreas del mismo tipo. Si seleccionó áreas de diferentes tipos, como Text y tabla, no podrá especificar un idioma.
    • Si es necesario, seleccione la dirección del texto en la Orientación lista desplegable (para obtener más información, consulte Si no se reconoce texto vertical o invertido)
    • Para textos en idiomas CJK, el programa ofrece una selección de las direcciones del texto en la Dirección del texto CJK lista desplegable (para obtener más información, consulte Editar las propiedades del área).

Si no se muestran caracteres europeos en el panel de texto

Si el texto en un idioma CJK se muestra incorrectamente en el panelText , puede haber seleccionado el Texto sin formato modo.

Para cambiar la fuente usada en el Texto sin formato modo:

  1. Haga clic Herramientas > Opciones... para abrir la Opciones cuadro de diálogo.
  2. Haga clic en el Áreas y texto pestaña.
  3. Seleccione Arial Unicode MS en la Fuente utilizada para mostrar texto sin formatolista desplegable.
  4. Haga clic Aceptar.

Si esto no ayuda y el texto en la ventana Text aún no se muestra correctamente, consulte Fuente incorrecta o algunos caracteres se sustituyen con "?" o "□".

Cambiar la dirección del texto reconocido

ABBYY FineReader detecta la dirección del texto automáticamente, pero también se puede especificar la dirección del texto manualmente.

  1. Activar el panel de texto.
  2. Seleccione uno o más párrafos.
  3. Haga clic en el botón en la barra de herramientas en el panel Texto.

Puede usar la Dirección del texto CJK lista desplegable en el panel Imagen para especificar la dirección del texto antes del OCR. Consulte también: Editar propiedades de área.

02.11.2018 16:19:20


Please leave your feedback about this article