Verarbeitung der ersten Seiten eines Dokuments
Gelegentlich ist die Erkennung des gesamten Dokuments nicht erforderlich: Das Erkennen der ersten Seiten ist für die Indexierung des Dokuments und für das Hinzufügen zur Datenbank ausreichend.
Die ausschließliche Erkennung nur einzelner Dokumente hilft, die Verarbeitungszeit zu reduzieren und die Seiten in Ihrer Lizenz zu speichern. Ein Benutzer kann prüfen, ob während des Überprüfungsschritts alle benötigten Daten erkannt wurden und ggfs. zusätzliche Seiten für die Erkennung auswählen. Die Anzahl der in Ihrer Lizenz verfügbaren Seiten werden nur um die Anzahl erkannter Seiten reduziert.
Wichtig! Es können nur bestimmte Seiten für die Erkennung ausgewählt werden, wenn die folgenden Bedingungen erfüllt sind:
- Dokumente im gleichen Job werden einzeln verarbeitet und getrennt (die Option Ein Dokument für jede Datei im Job erstellen in der Registerkarte 3. Dokumententrennung des Dialogs Workflow-Eigenschaften muss aktiviert sein).
- Die Daten werden ausschließlich in die Textformate TXT und HTML exportiert. PDF wird nicht als Textformat behandelt.
Sind andere Optionen ausgewählt, werden alle Seiten in Dokumenten erkannt und die Benachrichtigungen bezüglich dieser Gegebenheit werden im Job Protokoll angezeigt (die Benachrichtigungen enthalten den folgenden Text: "Die Einstellung "Erste Seiten verarbeiten" ist mit jeder Methode zur Dokumententrennung inkompatibel, mit Ausnahme von ""Ein Dokument für jede Datei im Job erstellen."").
Sie können mithilfe des Konnektors Microsoft Search IFilter oder mithilfe eines XML-Ticket eine teilweise Erkennung der Dokumente einrichten.
Um eine teilweise Erkennung der Dokumente mithilfe eines XML-Tickets einzurichten, führen Sie die folgenden Schritte durch.
- Erstellen Sie ein XML-Ticket, das die folgenden Informationen enthält:
- Legen im Attribut PageNumToRecognizeForSingleInputFile des Elements <XmlTicket> fest, wie viele Seiten zu Beginn des Dokument verarbeitet werden sollen. Denken Sie daran, dass Dokumente auch mit einer Titelseite und dem Inhaltsverzeichnis beginnen können, daher enthalten die ersten Seiten eines Dokuments oftmals keine nützlichen Informationen.
- Bestimmen Sie im Attribut Name des Elements <InputFile> den Namen der zu erkennenden Datei ein. Sollen zwei oder mehr Dokumente teilweise verarbeitet werden, erstellen Sie eine Liste mit deren Namen.
Beispiel für ein XML-Ticket:
<XmlTicket PageNumToRecognizeForSingleInputFile="3">
<InputFile Name="50.pdf" />
<InputFile Name="100.tif" />
</XmlTicket>
Mit diesem XML-Ticket wird ABBYY FineReader Server mitgeteilt, die ersten drei Seiten einer Datei zu erkennen.
- Platzieren Sie das XML-Ticket im Eingabeordner des aktuellen Workflows.
- Platzieren Sie die Bilddateien im Eingabeordner des aktuellen Workflows. Wird der Workflow ausgeführt, beginnt das Programm automatisch mit der Erkennung der Bilder.
Weitere Informationen
26.03.2024 13:49:48