Verarbeitung der ersten Seiten eines Dokuments

Gelegentlich ist die Erkennung des gesamten Dokuments nicht erforderlich: Das Erkennen der ersten Seiten ist für die Indexierung des Dokuments und für das Hinzufügen zur Datenbank ausreichend.

Die ausschließliche Erkennung nur einzelner Dokumente hilft, die Verarbeitungszeit zu reduzieren und die Seiten in Ihrer Lizenz zu speichern. Ein Benutzer kann prüfen, ob während des Überprüfungsschritts alle benötigten Daten erkannt wurden und ggfs. zusätzliche Seiten für die Erkennung auswählen. Die Anzahl der in Ihrer Lizenz verfügbaren Seiten werden nur um die Anzahl erkannter Seiten reduziert.

Wichtig! Es können nur bestimmte Seiten für die Erkennung ausgewählt werden, wenn die folgenden Bedingungen erfüllt sind:

  • Dokumente im gleichen Job werden einzeln verarbeitet und getrennt (die Option Ein Dokument für jede Datei im Job erstellen in der Registerkarte 3. Dokumententrennung des Dialogs Workflow-Eigenschaften muss aktiviert sein).
  • Die Daten werden ausschließlich in die Textformate TXT und HTML exportiert. PDF wird nicht als Textformat behandelt.

Sind andere Optionen ausgewählt, werden alle Seiten in Dokumenten erkannt und die Benachrichtigungen bezüglich dieser Gegebenheit werden im Job Protokoll angezeigt (die Benachrichtigungen enthalten den folgenden Text: "Die Einstellung "Erste Seiten verarbeiten" ist mit jeder Methode zur Dokumententrennung inkompatibel, mit Ausnahme von ""Ein Dokument für jede Datei im Job erstellen."").

Sie können mithilfe des Konnektors Microsoft Search IFilter oder mithilfe eines XML-Ticket eine teilweise Erkennung der Dokumente einrichten.

Um eine teilweise Erkennung der Dokumente mithilfe eines XML-Tickets einzurichten, führen Sie die folgenden Schritte durch.

  1. Erstellen Sie ein XML-Ticket, das die folgenden Informationen enthält:
    • Legen im Attribut PageNumToRecognizeForSingleInputFile des Elements <XmlTicket> fest, wie viele Seiten zu Beginn des Dokument verarbeitet werden sollen. Denken Sie daran, dass Dokumente auch mit einer Titelseite und dem Inhaltsverzeichnis beginnen können, daher enthalten die ersten Seiten eines Dokuments oftmals keine nützlichen Informationen.
    • Bestimmen Sie im Attribut Name des Elements <InputFile> den Namen der zu erkennenden Datei ein. Sollen zwei oder mehr Dokumente teilweise verarbeitet werden, erstellen Sie eine Liste mit deren Namen.

Beispiel für ein XML-Ticket:

   <XmlTicket PageNumToRecognizeForSingleInputFile="3">
       <InputFile Name="50.pdf" />
       <InputFile Name="100.tif" />
   </XmlTicket>

Mit diesem XML-Ticket wird ABBYY FineReader Server mitgeteilt, die ersten drei Seiten einer Datei zu erkennen.

  1. Platzieren Sie das XML-Ticket im Eingabeordner des aktuellen Workflows.
  2. Platzieren Sie die Bilddateien im Eingabeordner des aktuellen Workflows. Wird der Workflow ausgeführt, beginnt das Programm automatisch mit der Erkennung der Bilder.
Weitere Informationen

Konfigurieren der Dokumententrennung

Erstellen eines neuen Workflows

26.03.2024 13:49:48

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.