Analyse des fichiers de résultats XML

Exemple 1. Associer les pages de sortie et leurs pages d'entrée respectives

Dans cet exemple, le fichier de résultats XML a été généré pour une tâche ayant créé deux documents de sortie à partir de quatre documents en entrée. En examinant l'identifiant de fichier FileId et l'identifiant de page PageID, nous pouvons remarquer que le premier fichier de sortie, file1.docx, est composé de pages provenant des fichiers d'entrée file1.pdf et file2.pdf, et de la première page du fichier d'entrée file3.tif. Le deuxième fichier de sortie, file3.docx, est composé de pages provenant du fichier d'entrée  file4.tif et de la deuxième page du fichier d'entrée file3.tif.

Pour plus de praticité, les fichiers et leurs pages sont présentés avec différentes couleurs sur l'illustration ci-dessous.

<XmlResult Id="{BFF37808-4FA1-4FC3-949A-4BF7FC64FEC4}" IsFailed="false" ...>
 <ExportParams DocumentSeparationMethod="SeparateByFixedNumberOfPages" PagesPerDocument="3" XMLResultPublishingMethod="XMLResultToFolder" ...>
   <XMLResultLocation>D:\FRS\Workflow\Output Folder</XMLResultLocation>
   ...
 </ExportParams>
 <Name>file_1.pdf, file_2.pdf, file_3.pdf, file_4.pdf</Name>
 <InputFile FileName="file_1.pdf" Id="21827" ...>
   <Page Id="{B01336B9-AE8B-479D-AE91-8478A7451E2A}" PageNumber="0" ...>
     ...
   </Page>
   ...
 </InputFile>
 <InputFile FileName="file_2.pdf" Id="21828" ...>
   <Page Id="{6F834F38-43D6-4FE5-A983-084986809143}" PageNumber="0" ...>
     ...
   </Page>
   ...
 </InputFile>
 <InputFile FileName="file_3.pdf" Id="21829" ...>
   <Page Id="{CE5113B2-0593-462D-A668-D0E6E92C21B0}" PageNumber="0" ...>
     ...
   </Page>
   <Page Id="{E97D68CE-FA78-44B7-8193-8A3A8DE3DB9C}" PageNumber="1" ...>
     ...
   </Page>
   ...
 </InputFile>
 <InputFile FileName="file_4.pdf" Id="21830" ...>
   <Page Id="{913CCBD2-AC7F-495D-B964-1CF6668B532A}" PageNumber="0" ...>
     ...
   </Page>
   <Page Id="{DC823DCD-9E71-412E-9690-1BD55B995736}" PageNumber="1" ...>
     ...
   </Page>
   ...
 </InputFile>
 <JobDocument Name="file_1.pdf, file_2.pdf, file_3.pdf (page 1)" Id="{75DDDD35-CD3D-4CE5-A671-AE31D8277538}" ...>
   <OutputDocuments OutputLocation="D:\FRS\Workflow\Output Folder" ExportFormat="Docx" ...>
     <FileName>file_1.docx</FileName>
   </OutputDocuments>
   <Pages>
     <FileId>21827</FileId>
     <PageId>{B01336B9-AE8B-479D-AE91-8478A7451E2A}</PageId>
   </Pages>
   <Pages>
     <FileId>21828</FileId>
     <PageId>{6F834F38-43D6-4FE5-A983-084986809143}</PageId>
   </Pages>
   <Pages>
     <FileId>21829</FileId>
     <PageId>{CE5113B2-0593-462D-A668-D0E6E92C21B0}</PageId>
   </Pages>
   ...
 </JobDocument>
 <JobDocument Name="file_3.pdf (page 2), file_4.pdf" Id="{DC25C928-8070-4BF2-98B8-7EE608410E1D}" ...>
   <OutputDocuments OutputLocation="D:\FRS\Workflow\Output Folder" ExportFormat="Docx" ...>
     <FileName>file_3.docx</FileName>
   </OutputDocuments>
   <Pages>
     <FileId>21829</FileId>
     <PageId>{E97D68CE-FA78-44B7-8193-8A3A8DE3DB9C}</PageId>
   </Pages>
   <Pages>
     <FileId>21830</FileId>
     <PageId>{913CCBD2-AC7F-495D-B964-1CF6668B532A}</PageId>
   </Pages>
   <Pages>
     <FileId>21830</FileId>
     <PageId>{DC823DCD-9E71-412E-9690-1BD55B995736}</PageId>
   </Pages>
   ...
 </JobDocument>
 ...
</XmlResult>

Exemple 2. Un fichier de résultats XML obtenu en copiant un fichier d'entrée

Le fichier de résultats XML ci-dessous a été généré pour un fichier d'entrée nommé file.png. En examinant les valeurs des attributs Id et IsFailed de la balise <XmlResult>, nous pouvons remarquer que la tâche était unique et qu'elle a été exécutée avec succès. Nous examinons ensuite la liste de fichiers d'entrée et de sortie et remarquons que pour un seul fichier d'entrée, file.png, un seul fichier de sortie a été créé, également nommé file.png. Le nom du fichier de sortie est fourni dans la balise <OutputDocuments> qui est intégrée à la balise <InputFile>. L'extension « .doc » ne correspond pas à l'extension spécifiée dans le masque, ce qui signifie que le fichier de sortie file.png a été tout simplement obtenu en copiant le fichier d'entrée file.png, plutôt qu'en effectuant une OCR.

<XmlResult Id="{070F0101-2625-46DB-AE99-B8C7FF48F3C3}" IsFailed="false" ...>
 <ExportParams XMLResultPublishingMethod="XMLResultToFolder" ...>
   <XMLResultLocation>D:\FRS\Workflow\Output Folder</XMLResultLocation>
   ...
 </ExportParams>
 <Name>file.png</Name>
 <InputFile FileName="file.png" Id="21832" ...>
   <OutputDocuments OutputLocation="D:\FRS\Workflow\Output Folder" ExportFormat="NoConversion" ...>
     <FileName>file.png</FileName>
   </OutputDocuments>
 </InputFile>
 ...
</XmlResult>

Exemple 3. Traitement des fichiers et comparaison des fichiers de résultats XML du dossier de sortie et du dossier Exceptions

Un fichier de 4 pages nommé Invoices.pdf devaient être traités de la manière suivante :

  1. Reconnaître le fichier.
  2. Séparer Invoice.pdf en documents de 2 pages chacun.
  3. Indexer les documents.
  4. Enregistrer chaque document indexé au format DOC.

Note. Pendant le traitement, le deuxième document obtenu en séparant Invoice.pdf a été rejeté par un opérateur d'indexation car aucun numéro de facture n'a été trouvé dans le document.

Nous examinons ensuite les fichiers de résultats XML obtenus.

  1. Dans le dossier Exceptions, nous pouvons trouver Invoices.pdf.result.xml.

<XmlResult Id="{2481566F-AA4E-47D4-96FD-E97AB6DCE898}" IsFailed="true" ...>
 <ExportParams DocumentSeparationMethod="SeparateByFixedNumberOfPages" PagesPerDocument="2" XMLResultPublishingMethod="XMLResultToFolder" ...>
   <XMLResultLocation>D:\FRS\Workflow\Output Folder</XMLResultLocation>
   ...
 </ExportParams>
 <Name>Invoice.pdf</Name>
 <InputFile FileName="Invoice.pdf" Id="21833" ...>
   <OutputDocuments OutputLocation="D:\FRS\Workflow\Exceptions Folder" ExportFormat="NoConversion" ...>
     <FileName>Invoice.pdf</FileName>
   </OutputDocuments>
   <Page Id="{0B8C1DF4-3FF0-46A3-8CF4-67C7A94FD68E}" PageNumber="0" ...>
     ...
   </Page>
   <Page Id="{F95CCC65-D6C1-43AA-8714-F4520E912DE9}" PageNumber="1" ...>
     ...
   </Page>
   <Page Id="{F52BE173-B2C3-4D52-B05C-45A7847E1F5C}" PageNumber="2" ...>
     ...
   </Page>
   <Page Id="{1A606376-ACC1-4D14-8DE3-273777551C09}" PageNumber="3" ...>
     ...
   </Page>
   ...
 </InputFile>
 <JobDocument Name="Invoice.pdf (pages 3,4)" Id="{5D03D01F-7DB6-490A-BF18-441F2AF9533E}" ...>
   <IsFailed>true</IsFailed>
   <Message Type="Error" Code="35" ...>The document #2 was rejected by the Indexing Station operator ...</Message>
   <Pages>
     <FileId>21833</FileId>
     <PageId>{F52BE173-B2C3-4D52-B05C-45A7847E1F5C}</PageId>
   </Pages>
   <Pages>
     <FileId>21833</FileId>
     <PageId>{1A606376-ACC1-4D14-8DE3-273777551C09}</PageId>
   </Pages>
   ...
 </JobDocument>
 ...
</XmlResult>

La valeur de l'attribut IsFailed de la balise <XmlResult> nous informe que la tâche a échoué. Nous devons maintenant trouver l'identifiant unique de la tâche. Cet ID nous aidera à trouver les fichiers qui ont peut-être été traités avec succès.

La balise <InputFile> nous informe que le dossier d'entrée contient notre Invoice.pdf, composé de 4 pages. La balise <InputFile> contient une balise intégrée <OutputDocuments>, ce qui signifie que le fichier d'entrée a tout simplement été copié vers le dossier de sortie (comme exigé par l'option (e) ci-dessus).

Les balises <FileName> et <OutputLocation> désignent la copie enregistrée du fichier.

Les attributs FileId et PageId de la balise <JobDocument> nous informent que le document dont le traitement a entraîné l'erreur « La tâche a été a rejetée par l'opérateur du poste d'indexation » est constitué de la deuxième et de la troisième pages du fichier d'entrée.

  1. Dans le dossier de sortie, nous pouvons trouver Invoices.pdf.result.xml.

<XmlResult Id="{2481566F-AA4E-47D4-96FD-E97AB6DCE898}" IsFailed="false" ...>
 <ExportParams DocumentSeparationMethod="SeparateByFixedNumberOfPages" PagesPerDocument="2" XMLResultPublishingMethod="XMLResultToFolder" ...>
   <XMLResultLocation>D:\FRS\Workflow\Output Folder</XMLResultLocation>
   ...
 </ExportParams>
 <Name>Invoice.pdf</Name>
 <InputFile FileName="Invoice.pdf" Id="21833" ...>
   <Page Id="{0B8C1DF4-3FF0-46A3-8CF4-67C7A94FD68E}" PageNumber="0" ...>
     ...
   </Page>
   <Page Id="{F95CCC65-D6C1-43AA-8714-F4520E912DE9}" PageNumber="1" ...>
     ...
   </Page>
   <Page Id="{F52BE173-B2C3-4D52-B05C-45A7847E1F5C}" PageNumber="2" ...>
     ...
   </Page>
   <Page Id="{1A606376-ACC1-4D14-8DE3-273777551C09}" PageNumber="3" ...>
     ...
   </Page>
   ...
 </InputFile>
 <JobDocument Name="Invoice.pdf (pages 1,2)" Id="{FF05AABB-BBA4-49A7-AC71-2E2C8916BD72}" ...>
   <IsFailed>false</IsFailed>
   <Message Type="Information" Code="5" ...>The document #1 was accepted by the Indexing Station operator ...</Message>
   <OutputDocuments OutputLocation="D:\FRS\Workflow\Output Folder" ExportFormat="Docx" ...>
     <FileName>Invoice.docx</FileName>
   </OutputDocuments>
   <Pages>
     <FileId>21833</FileId>
     <PageId>{0B8C1DF4-3FF0-46A3-8CF4-67C7A94FD68E}</PageId>
   </Pages>
   <Pages>
     <FileId>21833</FileId>
     <PageId>{F95CCC65-D6C1-43AA-8714-F4520E912DE9}</PageId>
   </Pages>
   ...
 </JobDocument>
 <JobDocument Name="Invoice.pdf (pages 3,4)" Id="{5D03D01F-7DB6-490A-BF18-441F2AF9533E}" ...>
   <IsFailed>true</IsFailed>
   <Message Type="Error" Code="35" ...>The document #2 was rejected by the Indexing Station operator ...</Message>
   <Pages>
     <FileId>21833</FileId>
     <PageId>{F52BE173-B2C3-4D52-B05C-45A7847E1F5C}</PageId>
   </Pages>
   <Pages>
     <FileId>21833</FileId>
     <PageId>{1A606376-ACC1-4D14-8DE3-273777551C09}</PageId>
   </Pages>
   ...
 </JobDocument>
 ...
</XmlResult>

La valeur de l'attribut ID de la balise <XmlResult> est identique à la valeur du fichier Invoices.pdf.result.xml, trouvé dans le dossier Exceptions. Autrement dit, la tâche que nous examinons est une continuation de la tâche examinée à l'étape 1 figurant ci-dessus.

La valeur de l'attribut IsFailed de la balise <XmlResult> nous informe que cette partie de la tâche a été exécutée avec succès. L'attribut ID de la balise <InputFile> nous informe que la tâche a impliqué le même fichier Invoice.pdf de 4 pages.

Ensuite, nous trouvons un ensemble de balises <JobDocument>, chacune correspondant à un document de sortie obtenu en séparant les fichiers d'entrée en documents (comme exigé par l'option (b) ci-dessus).

Dans chaque balise <JobDocument>, les balises <OutputDocuments> contiennent les fichiers de sortie obtenus en traitant - Invoice.doc et Invoice001.pdf (étant donné que le dossier de sortie contient déjà un fichier nommé Invoice.pdf, le programme a créé une copie du fichier d'entrée).

Dans chaque balise <JobDocument>, les balises <Pages> fournissent des identifiants de page uniques permettant de nous indiquer à partir de quelles pages de fichiers d'entrée le document de sortie obtenu a été créé. Nous pouvons donc utiliser les balises <JobDocument> pour associer les fichiers d'entrée à leurs fichiers de sortie respectifs.

Note. la deuxième balise <JobDocument> ne contient pas de balise <OutputDocument>. Au lieu de cela, elle contient une balise <Error> avec la valeur « La tâche a été a rejetée par l'opérateur du poste d'indexation ». Cela signifie qu'une erreur s'est produite lors du traitement de ce document et que le programme a placé un fichier de résultats XML dans le dossier Exceptions.

Voir également

Résultat XML

3/26/2024 1:49:50 PM

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.