Glosario
Análisis de documentos es el proceso de identificar la estructura lógica de un documento y las áreas que contienen varios tipos de datos. El análisis del documento se puede llevar a cabo de forma automática o manual.
Área es una sección de una imagen delimitada por un marco y que contiene un cierto tipo de datos. Antes de realizar el reconocimiento óptico de caracteres, la estación de verificación detecta áreas de texto, imágenes, tablas y códigos de barras para determinar qué secciones de la imagen se deben reconocer y en qué orden.
Área activa es un área seleccionada actualmente en la imagen que puede ser eliminada, movida o modificada. Para hacer que un área esté activa, haga clic sobre ella. El marco que abarca el área activa está en negrita y tiene controladores de tamaño que puede arrastrar para cambiar su tamaño.
Área de código de barras es una imagen que contiene un código de barras.
Área de imagen es un área de imagen que contiene una imagen. Este tipo de área puede abarcar una imagen real o cualquier otro objeto (por ejemplo, un fragmento de texto) que debería mostrarse como imagen.
Área de imagen de fondo es un área de imagen que contiene una imagen con texto impreso sobre ella.
Área de reconocimiento es un área de imagen que la estación de verificación debería analizar automáticamente.
Área de tabla es un área de imagen que contiene datos en formato tabular. Cuando el programa lee este tipo de área, dibuja separadores verticales y horizontales dentro del área para formar una tabla. Esta área se reproduce posteriormente en forma de tabla en el texto de salida.
Área de texto es un área de imagen que contiene texto. Las áreas de texto únicamente contienen texto en una sola columna.
Atajos de teclado son teclas o combinaciones de teclas que activan una acción específica cuando se pulsan. El uso de teclas de acceso rápido puede aumentar considerablemente su productividad.
Caracteres con confianza baja son caracteres que pueden haberse reconocido de forma incorrecta.
Caracteres omitidos son los caracteres que no son letras encontrados en las palabras (por ejemplo, un caracter de sílaba o un acento). Se omiten al realizar la revisión ortográfica.
Caracteres prohibidos son caracteres que usted piensa que nunca se darán en el texto que va a reconocer. Si se especifican caracteres prohibidos, aumenta la velocidad y la calidad del reconocimiento óptico de caracteres.
Diseño es un conjunto de asociaciones entre las imágenes de carácter promedio y sus respectivos nombres. Los diseños se crean cuando moldea la estación de verificación sobre un texto específico.
Diseño de página es la ordenación del texto, tablas, imágenes, párrafos y columnas en una página. Las fuentes, los tamaños de fuente, los colores de fuente, el fondo del texto y la orientación forman también parte del diseño de la página.
Efectos de fuente es la apariencia de una fuente (por ejemplo, negrita, cursiva, subrayada, tachada, subíncide, superíndice, minúsculas).
El Moldeado es el proceso de establecer una correspondencia entre una imagen de un carácter y el carácter. See also: Si el documento impreso contiene fuentes no estándares.
Encabezados y pies de página son las imágenes o texto en el margen superior o inferior de una página. Los encabezados se ubican en la parte superior de la página, y los pies de página en la parte inferior.
Forma principal es la forma de diccionario de una palabra.
Fuente de espacio sencillo es una fuente (como Courier New) en la cual todos los caracteres tienen el mismo espacio entre sí. Para un resultado OCR mejor en caracteres con espacio sencillo, en la OCR pestaña del Opciones cuadro de diálogo, seleccione Máquina de escribir en el Tipo de documento grupo de opciones.
Imagen invertida es una imagen con caracteres en blanco impresos sobre un fondo oscuro.
Ligadura es una combinarción de dos o más caracteres que están pegados (por ejemplo, fi, fl, ffi). Para la estación de verificación es difícil separar dichos caracteres. Si los trata como un único carácter, mejora la precisión del reconocimiento óptico de caracteres.
Menú contextual es el menú que aparece cuando hace clic con el botón derecho sobre algo, como un área u otra parte del documento.
Modo de digitalización es un parámetro de digitalización que determina si una imagen debe digitalizarse en blanco y negro, escala de grises o color.
OCR (Reconocimiento óptico de caracteres) es una tecnología que permite a los ordenadores leer texto, detectar imágenes, tablas y otros elementos de formato.
Página de códigos es una tabla que establece correspondencia entre los caracteres y sus códigos. Los usuarios pueden seleccionar los caracteres que necesitan del conjunto de caracteres disponibles en la página de códigos.
Palabra compuesta es una palabra formada por dos o más palabras En la estación de verificación, una palabra compuesta es una palabra que el programa no puede encontrar en su diccionario pero que puede crear a partir de dos o más palabras en el diccionario.
Palabras de baja confianza son palabras que contienen uno o más caracteres de baja confianza.
Paradigma es el conjunto de todas las formas gramaticales de una palabra.
Plantilla de área es una plantilla que contiene información sobre el tamaño y ubicaciones de las áreas en documentos de aspecto similar.
Resolución es un parámetro de digitalización medido en puntos por pulgada (dpi). Debería usarse una resolución de 300 dpi para textos en fuentes de 10 pt y mayores, de 400 a 600 dpi es preferible para textos de fuentes más pequeñas (9 pt y menos).
Separadores son símbolos que pueden separar palabras (por ejemplo, /, \, guión) y se separan mediante espacios de las palabras.
Sistema omnifuente es un sistema de reconocimiento que reconoce los caracteres en cualquier fuente antes del moldeado.
Tipo de documento es un parámetro que le dice al programa cómo se imprimió el texto original (por ejemplo, en una impresora láser, en una máquina de escribir, etc.). Para los textos impresos en láser, seleccione Automático, para textos mecanografiados, seleccione Máquina de escribir, para fax, seleccione Fax.
Unicode es un estándar de codificación de texto internacional desarrollado por el Unicode Consortium (Unicode, Inc.). El estándar Unicode proporciona un sistema de 16 bits fácilmente ampliable para codificar símbolos de prácticamente todos los idiomas contemporáneos. Especifica cómo deben codificarse los símbolos y determina qué algoritmos y propiedades de carácter deben utilizarse durante el proceso de codificación.
26.03.2024 13:49:49