Ne traiter que les quelques premières pages des documents

Il est parfois inutile de reconnaître l'intégralité des documents : reconnaître les quelques premières pages est suffisant pour indexer le document et l'ajouter à la base de données.

N'effectuer qu'une reconnaissance partielle des documents peut considérablement réduire le temps de traitement et l'enregistrement des pages permis par votre licence. Un utilisateur peut vérifier si toutes les données requises ont été reconnues au cours de l'étape de vérification et sélectionner des pages supplémentaires à reconnaître si ce n'est pas le cas. Le nombre de pages disponibles dans votre licence ne diminuera qu'en fonction du nombre de pages reconnues.

Important! Vous ne pouvez sélectionner que des pages spécifiques à reconnaître si les conditions suivantes sont respectées :

  • Les documents d'une même tâche sont traités et séparés individuellement (l'option Créer un document pour chaque fichier de la tâche de l'onglet 3. Séparation des documents de la boîte de dialogue Propriétés du workflow doit être activée).
  • Les données sont uniquement exportées vers des formats texte, tels que les formats TXT et HTML. Le format PDF n'est pas considéré comme un format texte.

Si d'autres options sont sélectionnées, toutes les pages des documents seront reconnues et les notifications à ce sujet apparaîtront dans le journaldes tâches (les notifications contiendront le message suivant : "Traiter les premières pages est incompatible avec toute méthode de séparation de documents, à l'exception de "Créer un document pour chaque fichier de la tâche.").

Vous pouvez configurer une reconnaissance partielle des documents à l'aide des connecteurs Microsoft Search IFilter ou en utilisant un XML ticket.

Pour configurer une reconnaissance partielle de documents à l'aide d'un ticket XML, suivez les étapes figurant ci-dessous.

  1. Créez un ticket XML contenant les informations suivantes :
  • Spécifiez le nombre de pages du début du document que vous voulez traiter dans l'attribut PageNumToRecognizeForSingleInputFile de l'élément <XmlTicket>. N'oubliez pas que les documents peuvent commencer par une page de titre et une table des matières, les premières pages d'un document ne contiennent parfois aucune information utile.
  • Spécifiez le nom du fichier que vous voulez reconnaître dans l'attribut Name de l'élément <InputFile> . Si vous voulez traiter partiellement deux documents ou plus, créez une liste contenant leurs noms.

Exemple de ticket XML:

   <XmlTicket PageNumToRecognizeForSingleInputFile="3">
       <InputFile Name="50.pdf" />
       <InputFile Name="100.tif" />
   </XmlTicket>

Ce ticket XML demande à ABBYY FineReader Server de reconnaître les trois premières pages de chaque fichier.

  1. Placez le ticket XML dans le dossier d'entrée utilisé dans le workflow en cours.
  2. Placez les fichiers image dans le dossier d'entrée utilisé dans le workflow en cours. Si le workflow est exécuté, le programme commencera à reconnaître automatiquement les images.
Voir également

Configuration de la séparation de documents

Création d'un nouveau workflow

26.03.2024 13:49:50

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.