Cómo procesar únicamente las primeras páginas de los documentos

En ocasiones, no es necesario reconocer todo el documento: basta con reconocer las primeras páginas para indizar el documento y agregarlo a la base de datos.

Reconocer los documentos parcialmente puede reducir de forma significativa el tiempo de procesamiento y ahorrarle páginas en su licencia. El usuario puede comprobar si todos los datos requeridos han sido reconocidos durante la etapa de verificación y seleccionar páginas adicionales para el reconocimiento si no ha sido así. La cantidad de páginas disponibles en su licencia solo disminuirá dependiendo de la cantidad de páginas reconocidas.

¡Importante!Solamente puede seleccionar páginas específicas para el reconocimiento si se cumplen las siguientes condiciones:

  • Los documentos en el mismo trabajo se procesan y separan individualmente (debe estar activada la opción Crear un documento para cada archivo del trabajo en la ficha 3. Separación de documentos del cuadro de diálogo Propiedades del flujo de trabajo).
  • Los datos solo se exportan a formatos de texto, tales como TXT y HTML. El formato PDF no se considera como formato de texto.

Si están seleccionadas otras opciones, se reconocerán todas las páginas de los documentos y aparecerán notificaciones sobre esto en el registro de trabajos (las notificaciones tendrán el siguiente mensaje: "La función de procesar las primeras páginas no es compatible con los métodos de separación de documentos, excepto con "Crear un documento para cada archivo del trabajo"").

Puede configurar el reconocimiento parcial de documentos usando los conectores IFilter de Microsoft Search, o usando un vale XML.

Para configurar el reconocimiento parcial de documentos usando un vale XML, realice los pasos siguientes:

  1. Cree un vale XML que contenga la siguiente información:
    • Especifique cuántas páginas al inicio de un documento desea procesar en el atributo PageNumToRecognizeForSingleInputFile del elemento <XmlTicket>. Tenga en cuenta que los documentos pueden comenzar con una página de título y un índice, de tal forma que las primeras páginas de un documento a veces no contienen ninguna información útil.
    • Especifique el nombre del archivo que desea reconocer en el atributo Name del elemento <InputFile>. Si desea procesar parcialmente dos o más documentos, cree una lista que contenga sus nombres.

Ejemplo de un vale XML:

   <XmlTicket PageNumToRecognizeForSingleInputFile="3">
       <InputFile Name="50.pdf" />
       <InputFile Name="100.tif" />
   </XmlTicket>

Este vale XML solicita a ABBYY FineReader Server que reconozca las primeras tres páginas de cada archivo.

  1. Coloque el vale XML en la carpeta de Entrada usada en el flujo de trabajo actual.
  2. Coloque los archivos de imagen en la carpeta Entrada usada en el flujo de trabajo actual. Si el flujo de trabajo está en funcionamiento, el programa comenzará a reconocer las imágenes automáticamente.
Consulte también:

Configurar la separación de documentos

Creación de un script para la separación de documentos

26.03.2024 13:49:49

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.