Flujo de trabajo del documento
Se realizan los siguientes pasos de procesamiento, comenzando por el envío de la imagen a ABBYY FineReader Server 14 y finalizando por la exportación:
- Digitalización/importación
- Reconocimiento
- Separación de documentos
- Verificación (opcional)
- Indización (opcional)
- Exportación
Digitalización/importación
En esta fase, las imágenes se digitalizan en la Estación de digitalización o se importan mediante ABBYY FineReader Server desde una carpeta dinámica o un buzón de correo, o bien usando el Servicio de conversión de documentos de ABBYY FineReader Server 14.
Nota. Por defecto, los archivos de imagen se ordenarán según el nombre y se enviarán al Administrador de servidores en orden lexicográfico (por ejemplo, «archivo10.jpg» irá antes que «archivo2.jpg»). Esto se puede cambiar en la configuración del servidor. Para obtener más información, consulte el cuadro de diálogo: Propiedades del servidor FineReader.
Una vez enviados los archivos de imagen al Administrador de servidores desde la estación de digitalización, la carpeta de entrada o el buzón de correo, el Administrador de servidores crea trabajos y los añade a la cola para su procesamiento. Si se configuran varios flujos de trabajo, ABBYY FineReader Server procesará trabajos de todos los flujos de trabajo de forma simultánea dentro de una única cola. El orden de los trabajos en la cola dependerá de la hora de creación y la prioridad.
Nota. El Administrador de servidores almacena todos los archivos de imagen en la subcarpeta Imágenes de la carpeta temporal de ABBYY FineReader Server 14. La ruta de la carpeta temporal del Administrador de servidores puede visualizarse y cambiarse en el cuadro de diálogo Propiedades de FineReader Server de la Remote Administration Console. Los archivos de imagen se mantienen en esa carpeta durante todo el proceso de conversión. Las estaciones de procesamiento, las estaciones de verificación y las estaciones de indización reciben copias de dichas imágenes para el procesamiento. De este modo, queda garantizado que no se pierdan archivos en caso de producirse un error durante el reconocimiento, la verificación o la indización.
Consejos para la digitalización
La calidad de la conversión depende de la calidad del documento original y de los parámetros de digitalización. Una baja calidad de imagen podría tener un efecto negativo sobre la calidad de la conversión. Asegúrese de seleccionar los parámetros de digitalización adecuados para el documento.
Se recomienda digitalizar los documentos a 300 ppp.
¡Importante!las resoluciones vertical y horizontal deben ser idénticas.
Si la resolución es demasiado alta (más de 600 ppp), el tiempo de reconocimiento es mayor. Aumentar la resolución no mejora sustancialmente los resultados del reconocimiento. Si configura una resolución extremadamente baja (menos de 150 ppp), la calidad del reconocimiento se verá afectada de forma negativa.
Recomendaciones para elegir la resolución según el tamaño de fuente:
- 300 ppp: para textos normales (impresos con tamaños de fuente de 10 pt o más)
- 400-600 ppp: para textos impresos con tamaños de fuente más pequeños (9 pt o menos) e imágenes con códigos de barras
Reconocimiento
El primer trabajo de la cola se envía a la primera estación de procesamiento disponible para su reconocimiento. Si hay varias estaciones de procesamiento en el sistema, el Administrador de servidores distribuirá de forma equitativa los trabajos de la cola entre estas estaciones de procesamiento. Consulte Cómo registrar una nueva estación de procesamiento.
Una estación de procesamiento puede ejecutar varios procesos de OCR. (La cantidad se puede establecer en la Consola de administración remota.) Para obtener un rendimiento óptimo, se recomienda que el número de procesos en una estación sea N+1, donde N representa el número de núcleos de CPU de la estación. Habitualmente, cada proceso de OCR toma un archivo a la vez. Por ejemplo, si una estación de procesamiento ejecuta dos procesos de OCR, reconocerá dos archivos a la vez (pueden pertenecer al mismo trabajo o a diferentes). Sin embargo, si el archivo tiene muchas páginas (por ejemplo, varias decenas), el archivo grande se dividirá en varias partes, y estas partes se enviarán a distintos procesos de OCR con el fin de terminar el trabajo más rápidamente.
Una vez que la estación de procesamiento ha terminado de procesar el archivo, envía el archivo reconocido de regreso al Administrador de servidores y se le asigna el siguiente trabajo en la cola de espera.
Separación de documentos
Tras el reconocimiento, las páginas de la cola de trabajos se reorganizarán en documentos de acuerdo con la regla de separación. La separación de documentos se realiza dentro de una tarea. En función del origen especificado en la fase Importación, habrá diferentes métodos de separación disponibles. Además de los métodos de separación de documentos integrados (mediante códigos de barras, páginas en blanco, etc.), la separación se puede realizar usando un script. Consulte Configurar la separación de documentos.
Verificación
Si se activa la verificación en la configuración del flujo de trabajo, los documentos que requieren verificación quedarán en cola para su verificación después del ensamblado. Si las estaciones de verificación están conectadas, el Administrador de servidores enviará los documentos en cola a esas estaciones. Si actualmente no hay estaciones de verificación conectadas o los usuarios que han iniciado sesión en las estaciones no tienen permiso para verificar documentos de este flujo de trabajo, los documentos quedarán en espera en la cola con el estado «En cola para verificación». No se enviarán a procesar hasta que estén verificadas. Consulte Cómo configurar la verificación.
Indización
Si se definen los tipos de documento y atributos en la configuración del flujo de trabajo, los documentos ensamblados para este flujo de trabajo se pondrán en cola para su indización. La indización puede realizarse automáticamente con la ayuda de un script o manualmente en la estación de indización. Primero, si se define un script, la indización se realiza de acuerdo con el script. A continuación, los documentos que requieren indización manual o verificación de índice se ponen en cola para las estaciones de indización. Si hay conectadas estaciones de indización, el Administrador de servidores enviará las páginas en cola a dichas estaciones. Si no hay estaciones de indización conectadas o los usuarios que han iniciado sesión no tienen permiso para indizar documentos de este flujo de trabajo, las páginas quedarán en espera en la cola con el estado "En cola para indización". Consulte Cómo configurar la indización de documentos.
Exportación
Una vez completados el reconocimiento, la verificación y la indización, los documentos de salida se envían de regreso al Administrador de servidores y se ponen en cola para publicarse. El Administrador de servidores entrega los documentos de salida al destino especificado en la configuración del trabajo, o bien le ofrece la opción de guardarlos en una ubicación que usted elija si está usando el Servicio de conversión de documentos de ABBYY FineReader Server 14. Una vez publicados los archivos de salida en la carpeta de salida, la copia de la imagen se elimina de la carpeta temporal del Administrador de servidores.
Si se define el script de gestión de exportaciones para los trabajos publicados con éxito, se activará cuando los documentos de salida y el archivo de resultado XML se publiquen en la carpeta de salida. El script de gestión de importaciones puede utilizarse para enviar los documentos de salida a un destino apropiado dependiendo del tipo de documento, los atributos del documento, estadísticas de reconocimiento, etc.
Se puede definir un script para trabajos fallidos para gestionar imágenes que no se han podido procesar y se han colocado en la carpeta de excepciones.
3/26/2024 1:49:49 PM