Resultado XML

Un archivo de resultado XML contiene información sobre los parámetros y resultados de la ejecución del trabajo. Los archivos de resultado XML se crean para los trabajos realizados correctamente y los trabajos con error.

En la pestaña 6. Salida del cuadro de diálogo Propiedades del flujo de trabajo, se puede especificar la carpeta donde debe publicarse el archivo de resultado XML.

¡Importante!El nombre del archivo de resultado XML no puede contener más de 64 caracteres.

Si se produce algún error al ejecutar un trabajo y el trabajo se marca como Error, el archivo de resultado XML y los archivos de imagen sin procesar se guardarán según se especifique en Guardar trabajos con errores en en la pestaña 4. Control de calidad del cuadro de diálogo Propiedades del flujo de trabajo.

Etiquetas principales del resultado XML

Etiqueta Descripción
<XMLResult>

Esta es la etiqueta raíz. Sus atributos contienen la siguiente información:

  • Id: identificador del trabajo.
  • IsFailed: indica si el trabajo ha fallado o no.
  • Priority: indica la prioridad del trabajo.
  • Date: fecha y hora en las que se aceptó el procesamiento del trabajo.
<InputFile>

Los atributos de esta etiqueta proporcionan información general sobre el archivo de entrada:

  • Name: nombre del archivo.
  • Id: identificador del archivo.
  • FileModificationTime: fecha y hora en las que se creó el archivo.

Las etiquetas integradas en <InputFile> contienen la siguiente información:

  • <Statistics>: estadísticas del archivo (número total de caracteres, número de caracteres reconocidos de forma poco fiable, número de páginas, etc.).
  • <Page>: los atributos de esta etiqueta establecen una correspondencia entre los archivos de entrada y de salida (Id es el identificador de la página, PageNumber es el número de la página en el archivo).

Nota. Si un archivo de salida se obtiene copiando un archivo de entrada en vez de realizando el reconocimiento óptico de caracteres, esto se indica mediante una etiqueta <OutputDocuments> dentro de la etiqueta <InputFile> correspondiente.

Nota. Si se presenta un error al procesar un archivo de imagen de entrada, se colocará la etiqueta <Error> dentro de la etiqueta <InputFile>. La etiqueta <Error> contendrá una descripción del error.

<JobDocument>

Esta etiqueta proporciona información sobre el documento que se ha obtenido al agrupar los archivos de entrada procesados. En función de la configuración de ensamblaje del documento, este documento puede constar de un solo archivo de entrada, de varios archivos de entrada o de páginas determinadas tomadas de varios archivos.

El número de etiquetas <OutputDocuments> es igual al número de archivos de salida procesados en el trabajo.

Las etiquetas integradas en <OutputDocuments> contienen la siguiente información sobre los archivos de salida:

  • <FileName>: nombre del archivo.
  • <FormatSettings>: los atributos de esta etiqueta contienen la configuración de exportación.
  • <OutputLocation>: ruta de acceso a la carpeta de salida.
  • <NamingRule>: regla de denominación del archivo.
  • <Pages>: información sobre la página actual del archivo de salida (existe una etiqueta para cada página del archivo de salida; las etiquetas integradas en <Pages> indican la página y el archivo de dónde se obtuvieron las páginas actuales).
  • <Statistics>: estadísticas del trabajo.

Las etiquetas siguientes se utilizan al procesar mensajes de correo electrónico. Muestran si el documento contiene el cuerpo de un mensaje de correo electrónico o un archivo adjunto y si se extrajo de un mensaje principal o de un mensaje adjunto. Las pestañas se utilizan para archivos de correo electrónico, que pueden haberse recibido por correo electrónico o bien extraído de la carpeta de entrada.

  • <IsMailBodyFile>: indica si el documento contiene el cuerpo de un mensaje de correo electrónico principal.
  • <IsMailAttachedMessageFile>: indica que el documento contiene el cuerpo de un mensaje de correo electrónico adjunto o su archivo adjunto.

Nota. Si se crea un documento para el trabajo que contenga todos los textos de un mensaje de correo electrónico y sus archivos adjuntos, entonces IsMailBodyFile = true, IsMailAttachedMessageFile= false.

Nota. Si el documento solo contiene el texto de un archivo que está adjunto a un mensaje principal, entonces IsMailBodyFile = false, IsMailAttachedMessageFile= false.

Nota. Las propiedades IsMailBodyFile y IsMailAttachedMessageFile se incluyen en el archivo de resultado XML si sus valores no son falsos.

<ImageProcessingParams>

Los atributos de esta etiqueta contienen información sobre ajustes adicionales del procesamiento de la imagen, por ejemplo:

  • SplitDualPages: división de páginas opuestas.
  • ConvertToBWFormat: conversión de imágenes en color y en escala de grises a blanco y negro.
  • RotationType: rotación de la imagen.
  • Deskew: corrección de la inclinación de la imagen.
  • RemoveTexture: eliminación del ruido de fondo, etc.
<RecognitionParams>

Los atributos y las etiquetas integradas de <RecognitionParams> contienen la configuración del OCR, por ejemplo:

  • <Language>: idiomas del OCR.
  • RecognitionQuality: método de optimización (dar preferencia a calidad sobre velocidad o viceversa).
  • RecognitionMode: modo de reconocimiento (reconocer todo el texto o solo códigos de barras).
<ExportParams>

Las etiquetas integradas en <ExportParams> contienen los parámetros de exportación:

  • <ExportFormat>: formatos de salida de las imágenes procesadas y sus parámetros.
  • <OutputLocation>: destino de salida.
  • <XMLResultLocation>: carpeta donde se publicarán los archivos de resultado XML.
  • <NamingRule>: regla de denominación del archivo.
<Statistics> Los atributos de esta etiqueta contienen estadísticas generales de los archivos procesados, que combinan las estadísticas de todos los trabajos ejecutados.

Registro de cambios del resultado XML

  • Atributo Id agregado a <InputFile>, que contiene el identificador del archivo de entrada.
  • Etiqueta integrada <Page>, agregada a <InputFile>, donde Id es el identificador de la página del documento de entrada y PageNumber es el número de la página del archivo de entrada.
  • Etiqueta integrada <Pages> agregada a <JobDocument>. En cambio, <Pages> tiene integradas las etiquetas <FileId> y <PageId>. <FileId> es el identificador del archivo de entrada y <PageId> es el identificador de la página que muestra de qué página del documento de entrada se obtuvo la página procesada.

Se introdujeron los cambios previamente mencionados para que los usuarios puedan ver fácilmente qué página del archivo de entrada se corresponde con qué página del archivo de salida.

  • <FormatSettings> ahora incluye un atributo RewriteIfFileExists. Si este atributo es true, significa que se ha sobrescrito cualquier archivo de salida encontrado en la carpeta de salida.
  • El atributo SkipRecognizePdfsWithTextLayer se ha añadido a <ExportFormat>. Establecer el valor como true habilita la opción No modificar archivos con capas de texto de alta calidad en el cuadro de diálogo PDF.
  • El atributo SkipRecognizePdfsWithTextLayerCoefficient se ha añadido a <ExportFormat>. Este atributo recoge en una lista los ajustes que determinan cómo comprueba el programa la calidad de las capas de texto en los archivos PDF de entrada.
  • El atributo ProhibitHiddenTextDetection se añadió a <RecognitionParams>. Este atributo se establece como true por defecto, en cuyo caso el texto de las imágenes en los archivos PDF de entrada no se reconocerá. Si se establece como false, el programa reconocerá el texto de las áreas de imágenes y creará una capa de texto para estas áreas en el documento de salida.
  • El atributo TiffMaxBrokenLastLinesCount fue añadido al elemento<ImageProcessingParams>. Este atributo indica si el procesamiento de archivos TIFF dañados está habilitado o no.
  • El atributo EnablePeriodicCrawling se añadió a <InputSettings>. Establecer este atributo como true tiene el mismo efecto que habilitar Buscar archivos nuevos en la biblioteca cada: N unidades de tiempo en la ficha 1. Entrada del Cuadro de diálogo Propiedades del flujo de trabajo. El ajuste predeterminado es como false.
  • El atributo CrawlingInterval se añadió a <InputSettings>. El valor de este atributo indica la frecuencia con la que el programa comprueba si hay archivos nuevos en los flujos de trabajo de la Biblioteca de documentos.
  • Un parámetro <BackgroundColorDetectionParams> con un atributo BackgroundColorDetectionType ha sido añadido a la etiqueta <ImageProcessingParams>. Este atributo indica el color utilizado para rellenar las áreas vacías que aparecen después de enderezar una imagen. El atributo se establece a Auto por defecto.
  • Un atributo IndexingStationPagesSlice se ha añadido a <IndexingSettings>. Las páginas de documentos de varias páginas llegan a la Estación de Indexación en conjuntos de n páginas. El valor de este atributo indica el número de páginas por conjunto. El valor predeterminado es 5.
Consulte también:

Arquitectura de ABBYY FineReader Server,

Vale XML

26.03.2024 13:49:49

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.