XML-Ergebnis

Eine XML-Ergebnisdatei enthält Informationen über die Parameter und Ergebnisse der Jobausführung. Eine XML-Ergebnisdatei wird sowohl für erfolgreiche als auch fehlgeschlagene Jobs erstellt.

Wichtig! Der Name der XML-Ergebnisdatei darf nicht mehr als 64 Zeichen umfassen.

Auf der Registerkarte Ausgabe des Dialogfelds Workflow-Eigenschaften können Sie einen Ordner festlegen, in dem die XML-Ergebnisdatei veröffentlicht wird. Treten bei der Ausführung des Jobs Fehler auf und der Job wird als Fehlgeschlagen markiert, werden die XML-Ergebnisdatei und die unverarbeiteten Bilddateien gespeichert, wie unter Vorgang auf der Registerkarte Qualitätskontrolle festgelegt wurde.

Haupt-XML-Ergebnistags

Tag Beschreibung
<XMLResult>

Das ist der Stammtag. Seine Attribute enthalten die folgenden Informationen:

  • Id - der Bezeichner für den Job;
  • IsFailed – gibt an, ob der Job fehlgeschlagen ist oder nicht;
  • Priorität - gibt die Priorität des Jobs an;
  • Datum - Datum und Uhrzeit, wann der Job für die Bearbeitung akzeptiert wurde.
<InputFile>

Die Attribute dieses Tags enthalten allgemeine Informationen über die Eingabedatei:

  • Name – der Name der Datei;
  • Id - der Bezeichner für die Datei;
  • FileModificationTime - Datum und Uhrzeit, wann die Datei erstellt wurde.

Die in <InputFile> eingebetteten Tags enthalten die folgenden Informationen:

  • <Statistics> - Dateistatistiken (Gesamtanzahl der Zeichen; Anzahl der unzuverlässig erkannten Zeichen, Anzahl der Seiten)
  • <Page> - die Attribute dieses Tags stellen eine Korrespondenz zwischen Eingabe- und Ausgabedateien her (Id ist der Identifikator der Seite, PageNumber ist die Nummer der Seite in der Datei)

Hinweis. Erhält man eine Ausgabedatei durch das Kopieren einer Eingabedatei anstelle der Durchführung einer OCR, wird das anhand des Tags <OutputDocuments> innerhalb des entsprechenden <InputFile>-Tags gekennzeichnet.

Hinweis. Tritt während der Verarbeitung einer Bildeingabedatei ein Fehler auf. wird ein <Error>-Tag innerhalb des <InputFile>-Tags abgelegt. Der Tag <Error> enthält dann eine Beschreibung des Fehlers.

<JobDocument>

Dieser Tag enthält Informationen über das Dokument, das durch Gruppierung der verarbeiteten Eingabedateien erstellt wurde. Abhängig von Ihren Einstellungen für die Dokumentzusammenführung kann dieses Dokument aus nur einer Eingabedatei, aus mehreren Eingabedateien oder aus bestimmten Seiten, die aus mehreren Eingabedateien entnommen wurden, bestehen.

Die Anzahl der <OutputDocuments> Tags entspricht der Anzahl der Ausgabedateien, die innerhalb des vorgegebenen Jobs verarbeitet wurden.

Die in <OutputDocuments> eingebetteten Tags enthalten die folgenden Informationen über die Ausgabedateien:

  • <FileName> - der Name der Datei;
  • <FormatSettings> - die Attribute dieses Tags enthalten die Exporteinstellungen;
  • <OutputLocation> - der Pfad zum Ausgabeordner;
  • <NamingRule> - die Regel für die Dateibenennung;
  • <Pages> - Informationen über die aktuelle Seite der Ausgabedatei (jeweils ein -Tag entspricht den einzelnen Seiten der Ausgabedatei. Die in <Pages> eingebetteten Tags weisen auf die Seite und Datei hin, von denen die aktuellen Seiten empfangen wurden)
  • <Statistics> - Jobstatistiken

Bei der Verarbeitung von E-Mai-Nachrichten werden die folgenden Tags verwendet. Sie zeigen an, ob das Dokument den Text einer E-Mail-Nachricht oder eine Anlage enthält und ob diese von einer Hauptnachricht oder von einer angehängten Nachricht bezogen wurde. Die Tags werden für E-Mail-Dateien verwendet, die entweder per E-Mail empfangen oder aus dem Eingabeordner entnommen werden.

  • <IsMailBodyFile> - gibt an, ob das Dokument den Text einer E-Mail-Hauptnachricht enthält.
  • <IsMailAttachedMessageFile> - gibt an, ob das Dokument den Text einer angehängten E-Mail-Nachricht oder deren Anlage enthält.

Hinweis. Wird ein Dokument für den Job erstellt, der alle Texte einer E-Mail-Nachricht und deren Anlagen enthält, gilt: IsMailBodyFile = true, IsMailAttachedMessageFile= false.

Hinweis. Enthält das Dokument nur den Text einer an die Hauptnachricht angehängten Datei, gilt: IsMailBodyFile = false, IsMailAttachedMessageFile= false.

Hinweis. Die Eigenschaften IsMailBodyFile und IsMailAttachedMessageFile sind in der XML-Ergebnisdatei enthalten, falls ihre Werte nicht false sind.

<ImageProcessingParams>

Die Attribute dieses Tags enthalten Informationen über die zusätzlichen Bildverarbeitungseinstellungen, wie z. B.:

  • SplitDualPages - Unterteilung gegenüberliegender Seiten;
  • ConvertToBWFormat - Konvertierung von Farb- und Graustufenbildern zu Schwarz-Weiß.
  • RotationType - Bilddrehung;
  • Deskew - Korrektur der Bildverzerrung;
  • RemoveTexture - Entfernung von Bildrauschen usw.
<RecognitionParams>

Die Attribute und eingebetteten Tags von <RecognitionParams> enthalten die OCR-Einstellungen, wie z. B.:

  • <Language> - OCR-Sprachen;
  • RecognitionQuality - Optimierungsmethode (Qualität vor Geschwindigkeit wird bevorzugt oder umgekehrt);
  • RecognitionMode - Erkennungsmodus (Erkennung des gesamten Textes oder ausschließliche Erkennung von Strichcodes).
<ExportParams>

Die in <ExportParams> eingebetteten Tags enthalten die Exportparameter:

  • <ExportFormat> - die Ausgabeformate der verarbeiteten Bilder und deren Parameter;
  • <OutputLocation> - Ausgabeziel;
  • <XMLResultLocation> - der Ordner, in dem die XML-Ergebnisdateien veröffentlicht werden;
  • <NamingRule> - die Regel für die Dateibenennung.
<Statistics> Die Attribute dieses Tags enthalten allgemeine Statistiken über die verarbeiteten Dateien, mit denen die Statistiken für alle ausgeführten Jobs kombiniert werden.

XML-Ergebnis Änderungsprotokoll

  • <InputFile> hinzugefügtes Id-Attribut, das den Identifikator der Eingabedatei enthält.
  • Eingebetteter <Page>-Tag, hinzugefügt zu <InputFile>, wobei die Id der Identifikator der Seite des Eingabedokuments ist und PageNumber ist die Nummer der Seite in der Eingabedatei.
  • Eingebetteter <Pages>-Tag, hinzugefügt zu <JobDocument>. In <Pages> wiederum sind die Tags<FileId> und <PageId> eingebettet. <FileId> ist der Identifikator der Eingabedatei und <PageId> ist der Identifikator der Seite, der anzeigt, von welcher Seite des Eingabedokuments die verarbeitete Seite empfangen wurde.

Die oben genannten Änderungen wurden eingeführt, damit die Benutzer auf einfache Weise erkennen können, welche Seite der Eingabedatei welcher Seite der Ausgabedatei entspricht.

  • <FormatSettings> enthält jetzt ein RewriteIfFileExists-Attribut. Ist dieses Attribut "true", bedeutet das, dass jede im Ausgabeordner gefundene Ausgabedatei, überschrieben wurde.
  • Das Attribut SkipRecognizePdfsWithTextLayer wurde <ExportFormat> hinzugefügt. Die Einstellung dieses Werts auf true aktiviert die Option Dateien mit hochwertiger Textebene nicht bearbeiten auf der Registerkarte Registerkarte PDF im Dialogfeld Ausgabeformateinstellungen.
  • Das Attribut SkipRecognizePdfsWithTextLayerCoefficient wurde <ExportFormat> hinzugefügt. Mit diesem Attribut werden die Einstellungen aufgelistet, die bestimmen, wie das Programm die Qualität der Textebene in PDF-Eingabedateien überprüft.
  • Das Attribut ProhibitHiddenTextDetection wurde <RecognitionParams> hinzugefügt. Dieses Attribut ist standardmäßig auf true festgelegt und in diesem Fall wird der Text in Bildern in PDF-Ausgabedateien nicht erkannt. Wird dieses Attribut festgelegt auf false, erkennt das Programm Text in Bildbereichen und erstellt eine Textebene für diese Bereiche im Ausgabedokument.
  • Das Attribut TiffMaxBrokenLastLinesCount wurde dem Element <ImageProcessingParams> hinzugefügt. Dieses Attribut gibt an, ob die Verarbeitung beschädigter TIFF-Dateien aktiviert oder deaktiviert wurde.
  • Das Attribut EnablePeriodicCrawling wurde <InputSettings> hinzugefügt. Die Einstellung dieses Attributs auf true hat die gleiche Auswirkung wie das Aktivieren von Bibliothek nach neuen Dateien durchsuchen alle: N Zeiteinheiten auf der Registerkarte Eingabe des Dialogfelds Workflow-Eigenschaften. Der Standardwert ist false.
  • Das Attribut CrawlingInterval wurde <InputSettings> hinzugefügt. Dieses Attributwird mit Dokumentbibliothek-Workflows für die Einrichtung regelmäßiger Überprüfungen auf neue Dateien verwendet.
  • Ein <BackgroundColorDetectionParams> Parameter mit einem BackgroundColorDetectionType Attribut wurde dem Tag <ImageProcessingParams> hinzugefügt. Dieses Attribut gibt an, welche Farbe für das Füllen der leeren Bereiche verwendet wurde, die nach dem Entzerren des Bildes entstanden sind. Dieses Attribut ist standardmäßig auf Auto eingestellt.
  • Ein IndexingStationPagesSlice -Attribut wurde den <IndexingSettings> hinzugefügt. Die Seiten mehrseitiger Dokumente erreichen die Indexierungsstation in Sätzen von n Seiten. Mit dem Wert dieses Attributs wird die Anzahl der Seiten pro Satz angegeben. Der Standardwert lautet 5.
Weitere Informationen

Architektur von ABBYY FineReader Server
XML-Ticket

26.03.2024 13:49:48

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.