Résultat XML

Un fichier de résultats XML contient des informations relatives aux paramètres et aux résultats de l'exécution de la tâche. Un fichier de résultats XML est créé pour les tâches réussies ou ayant échoué.

Sur l'onglet 6. Sortie de la boîte de dialogue Propriétés du workflow, vous pouvez spécifier un dossier où le fichier de résultats XML devra être publié.

Important! Le nom du fichier Résultat XML ne doit pas contenir plus de 64 caractères.

Si des erreurs se produisent lors de l'exécution d'une tâche et qu'il est spécifié que la tâche a Échoué, le fichier de résultats XML et les fichiers image non traités seront enregistrés sous Traitement dans l'onglet 4. Contrôle qualité.

Balises principales des résultats XML

Balise Description
<XMLResult>

Il s'agit de la balise racine. Ses attributs contiennent les informations suivantes :

  • Id – l'identificateur de la tâche,
  • IsFailed – indique si la tâche a échoué ou non,
  • Priority – indique la priorité de la tâche,
  • Date – la date et l'heure auxquelles la tâche a été acceptée pour traitement.
<InputFile>

Les attributs de cette balise fournissent les informations générales à propos du fichier d'entrée :

  • Name – le nom du fichier,
  • Id – l'identificateur du fichier,
  • FileModificationTime - la date et l'heure auxquelles le fichier a été créé.

Les balises intégrées à <InputFile> contiennent les informations suivantes :

  • <Statistics> - statistiques sur les fichiers (nombre total de caractères, nombre de caractères dont la reconnaissance est considérée comme peu fiable, nombre de pages).
  • <Page> - les attributs de cette balise établissent une correspondance entre les fichiers d'entrée et de sortie (Id est l'identificateur de la page, PageNumber est le numéro de la page dans le fichier)

Note. Si un fichier de sortie est obtenu en copiant un fichier d'entrée plutôt qu'en effectuant une OCR, cela est indiqué par la balise <OutputDocuments> intégrée à la balise <InputFile> correspondante.

Note. Si une erreur survient lors du traitement d'un fichier image d'entrée, une balise <Error> sera insérée à l'intérieur de la balise <InputFile>. La balise <Error> contiendra une description de l'erreur.

<JobDocument>

Cette balise fournit les informations relatives au document obtenu en regroupant les fichiers d'entrée traités. En fonction de vos paramètres d'assemblage de documents, ce document peut ne contenir qu'un seul fichier d'entrée, plusieurs fichiers d'entrée ou certaines pages extraites de multiples fichiers d'entrée.

Le nombre de balises <OutputDocuments> est égal au nombre de fichiers extraits traités au sein de la tâche donnée.

Les balises intégrées aux <OutputDocuments> contiennent les informations suivantes à propos des fichiers extraits :

  • <FileName> - le nom du fichier,
  • <FormatSettings> - les attributs de cette balise contiennent les paramètres d'exportation,
  • <OutputLocation> - le chemin vers le dossier Sortie,
  • <NamingRule> - la règle de dénomination des fichiers,
  • <Pages> - les informations relatives à la page en cours du fichier de sortie (une balise correspond à chaque page du fichier de sortie ; les balises intégrées à <Pages> indiquent la page et le fichier à partir desquels les pages ont été obtenues),
  • <Statistics> - statistiques de tâche.

Les balises suivantes sont utilisées lors du traitement des messages électroniques. Elles montrent si le document contient le corps d'un message électronique ou une pièce jointe et s'il a été acquis depuis un message principal ou depuis un message joint. Les balises sont utilisées pour les fichiers électroniques, qui peuvent être soit reçus par e-mail, soit pris dans le dossier Entrée.

  • <IsMailBodyFile> : indique si le document contient le corps d'un message électronique principal.
  • <IsMailAttachedMessageFile> : indique que le document contient le corps d'un message électronique joint ou sa pièce jointe.

Note. Si un document est créé pour le travail qui contiendra tous les textes d'un message électronique et ses pièces jointes, alors IsMailBodyFile = vrai, IsMailAttachedMessageFile= faux.

Note. Si le document ne contient que le texte d'un fichier joint à un message principal, alors IsMailBodyFile = faux, IsMailAttachedMessageFile= faux.

Note. Les propriétés de IsMailBodyFile et de IsMailAttachedMessageFile sont incluses dans le fichier XML des résultats si leurs valeurs ne sont pas fausses.

<ImageProcessingParams>

Les attributs de cette balise contiennent les informations relatives aux paramètres supplémentaires de traitement d'image, par exemple :

  • SplitDualPages - segmentation des pages en regard,
  • ConvertToBWFormat - conversion d'images en couleur et aux niveaux de gris en noir et blanc,
  • RotationType - rotation d'image,
  • Redresser - correction de l'inclinaison de l'image,
  • RemoveTexture - suppression du bruit de fond, etc.
<RecognitionParams>

Les attributs et balises intégrées de <RecognitionParams> contiennent les paramètres d'OCR, par exemple :

  • <Language> - langues d'OCR,
  • RecognitionQuality - méthode d'optimisation (favoriser la qualité plutôt que la vitesse et inversement),
  • RecognitionMode - mode de reconnaissance (reconnaître tout le texte ou reconnaître uniquement les codes-barres).
<ExportParams>

Les balises intégrées à <ExportParams> contiennent les paramètres d'exportation :

  • <ExportFormat> - les formats de sortie des images traitées et leurs paramètres,
  • <OutputLocation> - destination de sortie,
  • <XMLResultLocation> - le dossier où les fichiers de résultats XML sont publiés,
  • <NamingRule> - la règle de dénomination des fichiers.
<Statistics> Les attributs de cette balise contiennent les statistiques générales des fichiers traités qui combinent les statistiques de toutes les tâches exécutées.

Changelog des résultats XML

  • L'attribut Id ajouté à <InputFile>, qui contient l'identifiant du fichier d'entrée.
  • La balise intégrée <Page> ajoutée à <InputFile>, dans laquelle Id est l'identifiant de la page du document d'entrée et PageNumber est le numéro de la page dans le fichier d'entrée.
  • La balise intégrée <Pages> ajoutée à <JobDocument>. <Pages>, comprend à son tour, des balises intégrées <FileId> et <PageId>. <FileId> est l'identifiant du fichier d'entrée et <PageId> est l'identifiant de la page qui affiche à partir de quelle page du document d'entrée la page traitée a été obtenue.

Les modifications ci-dessus ont été introduites de sorte que les utilisateurs puissent facilement voir quelle page du fichier d'entrée correspond à quelle page du fichier de sortie.

  • <FormatSettings> inclut à présent un attribut RewriteIfFileExists. Si cet attribut est true, cela signifie que tous les fichiers de sortie trouvés dans le dossier de sortie ont été écrasés.
  • L'attribut SkipRecognizePdfsWithTextLayer a été ajouté à <ExportFormat>. Définir cette valeur sur true active l'option Ne pas modifier les fichiers ayant une couche de texte de grande qualité sur l'onglet PDF de la boîte de dialogue Paramètres du format de sortie.
  • L'attribut SkipRecognizePdfsWithTextLayerCoefficient a été ajouté à <ExportFormat>. Cet attribut répertorie les paramètres qui déterminent la façon dont le programme a vérifié la qualité du calque du texte dans les fichiers PDF d'entrée.
  • L'attribut ProhibitHiddenTextDetection a été ajouté à <RecognitionParams>. Cet attribut est défini sur true par défaut, auquel cas le texte sur les images dans les fichiers PDF en entrée ne sera pas reconnu. Lorsque cet attribut est réglé sur false, le programme reconnaît le texte sur les zones d'image et crée une couche de texte pour ces zones dans le document en sortie.
  • L'attribut TiffMaxBrokenLastLinesCount a été ajouté à l'élément <ImageProcessingParams>. Cet attribut indique si le traitement des fichiers TIFF endommagés a été activé ou désactivé.
  • L'attribut EnablePeriodicCrawling a été ajouté à <InputSettings>. Définir cet attribut sur true a le même effet qu'activer Indexation de la bibliothèque pour les nouveaux fichiers tous ou toutes les : N unités de temps dans l'onglet Entrée de la boîte de dialogue Propriétés du workflow Propriétés du workflow. Le paramètres par défaut est false.
  • L'attribut CrawlingInterval a été ajouté à <InputSettings>. La valeur de cet attribut indique la fréquence à laquelle le programme recherche les nouveaux dossiers dans les flux de tâches de la  Bibliothèque de documents.
  • Un paramètre <BackgroundColorDetectionParams> avec un attribut BackgroundColorDetectionType a été ajouté à la balise . Cet attribut indique la couleur qui a été utilisée pour remplir les zones vides qui apparaissent après la correction de désalignement de l'image. Cet attribut est réglé sur Auto par défaut.
  • Un attribut IndexingStationPagesSlice a été ajouté à <IndexingSettings>. Les pages des documents multipages parviennent au Poste d'indexation par lot de n pages. La valeur de cet attribut indique le nombre de pages par ensemble. La valeur par défaut est de 5.
Voir également

Architecture d'ABBYY FineReader Server

Ticket XML

26.03.2024 13:49:50

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.