文書の最初の数ページのみ処理する方法
文書全体を処理する必要がない場合もあります。文書にインデックスを作成し、データベースに追加するには、最初の数ページを認識するだけで十分です。
文書の一部のみを認識することは、処理時間を大幅に削減し、ライセンスのページ数を節約します。 ユーザーは、確認ステージで必要なデータがすべて認識されたかどうかを確認し、まだ認識されていない場合には、認識のための追加のページを選択することができます。 ライセンスで利用可能なページ数は認識されたページ数の分だけ削減されます。
重要事項!以下の条件に適う場合は、認識のために特定のページのみを選択できます:
- 同一ジョブの文書は別々に処理、分割され(ワークフローのプロパティダイアログの3. ドキュメント分割タブのジョブの各ファイルに 1 つの文書を作成するオプションが有効にされていなければなりません)。
- データは TXT および HTML などのテキストフォーマットにのみエクスポートされます。 PDF はテキストフォーマットとして取り扱われます。
他のオプションが選択されている場合は、文書の全ページが認識され、このことについての通知がジョブログに表示されます(通知には以下のメッセージが含まれます: 最初の数ページのみを処理する設定は「ジョブの各ファイルに 1 つの文書を作成する」以外の文書の分割方法とは互換性がありません)。
Microsoft Search IFilterコネクタまたはXML チケットを使用して、文書の部分的認識を設定できます。
XML チケットを使用して、文書の一部を認識するよう設定するには、以下の手順を完了してください:
- 以下の情報が含まれる XML チケットを作成します:
- <XmlTicket> 要素のPageNumToRecognizeForSingleInputFile属性で文書の最初の何ページを処理したいかを指定します。 文書はタイトルページおよび目次から開始することがあるため、最初の数ページには時々、有益な情報が含まれていないことがあることを考慮にいれておいてください。
- 認識したいファイルの名前を <InputFile> 要素の名前属性で指定します。 2 つまたはそれ以上の文書の一部を認識したい場合には、その名前を含むリストを作成します。
XML チケットの例:
<XmlTicket PageNumToRecognizeForSingleInputFile="3">
<InputFile Name="50.pdf" />
<InputFile Name="100.tif" />
</XmlTicket>
この XML チケットは ABBYY FineReader Server に、各ファイルの最初の 3 ページを認識するよう指示します。
- XML チケットを現在のワークフローで使用される入力フォルダに入れます。
- 現在のワークフローで使用される入力フォルダに画像ファイルを入れます。 ワークフローが実行されている場合、プログラムは画像を自動的に認識し始めます。
こちらも参照してください:
26.03.2024 13:49:51