Resultado XML
Un archivo de resultado XML contiene información sobre los parámetros y resultados de la ejecución del trabajo. Los archivos de resultado XML se crean para los trabajos realizados correctamente y los trabajos con error.
En la pestaña 6. Salida del cuadro de diálogo Propiedades del flujo de trabajo, se puede especificar la carpeta donde debe publicarse el archivo de resultado XML.
¡Importante!El nombre del archivo de resultado XML no puede contener más de 64 caracteres.
Si se produce algún error al ejecutar un trabajo y el trabajo se marca como Error, el archivo de resultado XML y los archivos de imagen sin procesar se guardarán según se especifique en Guardar trabajos con errores en en la pestaña 4. Control de calidad del cuadro de diálogo Propiedades del flujo de trabajo.
Etiquetas principales del resultado XML
Etiqueta | Descripción |
<XMLResult> |
Esta es la etiqueta raíz. Sus atributos contienen la siguiente información:
|
<InputFile> |
Los atributos de esta etiqueta proporcionan información general sobre el archivo de entrada:
Las etiquetas integradas en <InputFile> contienen la siguiente información:
Nota. Si un archivo de salida se obtiene copiando un archivo de entrada en vez de realizando el reconocimiento óptico de caracteres, esto se indica mediante una etiqueta <OutputDocuments> dentro de la etiqueta <InputFile> correspondiente. Nota. Si se presenta un error al procesar un archivo de imagen de entrada, se colocará la etiqueta <Error> dentro de la etiqueta <InputFile>. La etiqueta <Error> contendrá una descripción del error. |
<JobDocument> |
Esta etiqueta proporciona información sobre el documento que se ha obtenido al agrupar los archivos de entrada procesados. En función de la configuración de ensamblaje del documento, este documento puede constar de un solo archivo de entrada, de varios archivos de entrada o de páginas determinadas tomadas de varios archivos. El número de etiquetas <OutputDocuments> es igual al número de archivos de salida procesados en el trabajo. Las etiquetas integradas en <OutputDocuments> contienen la siguiente información sobre los archivos de salida:
Las etiquetas siguientes se utilizan al procesar mensajes de correo electrónico. Muestran si el documento contiene el cuerpo de un mensaje de correo electrónico o un archivo adjunto y si se extrajo de un mensaje principal o de un mensaje adjunto. Las pestañas se utilizan para archivos de correo electrónico, que pueden haberse recibido por correo electrónico o bien extraído de la carpeta de entrada.
Nota. Si se crea un documento para el trabajo que contenga todos los textos de un mensaje de correo electrónico y sus archivos adjuntos, entonces IsMailBodyFile = true, IsMailAttachedMessageFile= false. Nota. Si el documento solo contiene el texto de un archivo que está adjunto a un mensaje principal, entonces IsMailBodyFile = false, IsMailAttachedMessageFile= false. Nota. Las propiedades IsMailBodyFile y IsMailAttachedMessageFile se incluyen en el archivo de resultado XML si sus valores no son falsos. |
<ImageProcessingParams> |
Los atributos de esta etiqueta contienen información sobre ajustes adicionales del procesamiento de la imagen, por ejemplo:
|
<RecognitionParams> |
Los atributos y las etiquetas integradas de <RecognitionParams> contienen la configuración del OCR, por ejemplo:
|
<ExportParams> |
Las etiquetas integradas en <ExportParams> contienen los parámetros de exportación:
|
<Statistics> | Los atributos de esta etiqueta contienen estadísticas generales de los archivos procesados, que combinan las estadísticas de todos los trabajos ejecutados. |
Registro de cambios del resultado XML
- Atributo Id agregado a <InputFile>, que contiene el identificador del archivo de entrada.
- Etiqueta integrada <Page>, agregada a <InputFile>, donde Id es el identificador de la página del documento de entrada y PageNumber es el número de la página del archivo de entrada.
- Etiqueta integrada <Pages> agregada a <JobDocument>. En cambio, <Pages> tiene integradas las etiquetas <FileId> y <PageId>. <FileId> es el identificador del archivo de entrada y <PageId> es el identificador de la página que muestra de qué página del documento de entrada se obtuvo la página procesada.
Se introdujeron los cambios previamente mencionados para que los usuarios puedan ver fácilmente qué página del archivo de entrada se corresponde con qué página del archivo de salida.
- <FormatSettings> ahora incluye un atributo RewriteIfFileExists. Si este atributo es true, significa que se ha sobrescrito cualquier archivo de salida encontrado en la carpeta de salida.
- El atributo SkipRecognizePdfsWithTextLayer se ha añadido a <ExportFormat>. Establecer el valor como true habilita la opción No modificar archivos con capas de texto de alta calidad en el cuadro de diálogo PDF.
- El atributo SkipRecognizePdfsWithTextLayerCoefficient se ha añadido a <ExportFormat>. Este atributo recoge en una lista los ajustes que determinan cómo comprueba el programa la calidad de las capas de texto en los archivos PDF de entrada.
- El atributo ProhibitHiddenTextDetection se añadió a <RecognitionParams>. Este atributo se establece como true por defecto, en cuyo caso el texto de las imágenes en los archivos PDF de entrada no se reconocerá. Si se establece como false, el programa reconocerá el texto de las áreas de imágenes y creará una capa de texto para estas áreas en el documento de salida.
- El atributo TiffMaxBrokenLastLinesCount fue añadido al elemento<ImageProcessingParams>. Este atributo indica si el procesamiento de archivos TIFF dañados está habilitado o no.
- El atributo EnablePeriodicCrawling se añadió a <InputSettings>. Establecer este atributo como true tiene el mismo efecto que habilitar Buscar archivos nuevos en la biblioteca cada: N unidades de tiempo en la ficha 1. Entrada del Cuadro de diálogo Propiedades del flujo de trabajo. El ajuste predeterminado es como false.
- El atributo CrawlingInterval se añadió a <InputSettings>. El valor de este atributo indica la frecuencia con la que el programa comprueba si hay archivos nuevos en los flujos de trabajo de la Biblioteca de documentos.
- Un parámetro <BackgroundColorDetectionParams> con un atributo BackgroundColorDetectionType ha sido añadido a la etiqueta <ImageProcessingParams>. Este atributo indica el color utilizado para rellenar las áreas vacías que aparecen después de enderezar una imagen. El atributo se establece a Auto por defecto.
- Un atributo IndexingStationPagesSlice se ha añadido a <IndexingSettings>. Las páginas de documentos de varias páginas llegan a la Estación de Indexación en conjuntos de n páginas. El valor de este atributo indica el número de páginas por conjunto. El valor predeterminado es 5.
Consulte también:
26.03.2024 13:49:49