文書セットの処理
文書セットは、個別の文書や複数のセクションを持つ文書とは別に処理されます。
文書セットを処理するためには、そのセットから文書が失われていないことをチェックするために、特別な完了ルールが使用されます。完了ルールは、シンプルな文書リストから、他の文書に言及されたものやインベントリーリストにあるものなど特定の文書をセットに含むことを定める複雑なルールまで、様々です。
文書セットは、以下の処理ステージを通過します:
- セットが、そこに含むべきすべての文書を含んでいるかのチェック、それぞれの種類ごとの文書数のチェック、またオプションとして、セット内の文書の順番のチェック。
- セット内の主な文書1つのデータキャプチャまたは複数の文書からのデータキャプチャ、および矛盾の検出 (例えば、すべての文書が同じ人物または組織に関連していることの確認)。
- 文書の署名および印影の視認チェック。
- セットを構成するすべての文書に基づく、検索可能な PDF の作成。
- キャプチャデータを、原本画像へのリンクと共に、データベースへエクスポート。
文書セットは、データをキャプチャしないものの、その画像を処理結果に含めなければならない文書を含むことがあります。そのような文書は光学的認識を必要としませんが、文書セットから文書が失われることがないようにするためには、そのような種類のものも検出される必要があります。例えば、手書きの申請書、証明書、領収書などです。
文書セット認識の処理には、いくつかの明確な特徴があります:
子要素となる文書をリストにする必要はありません。その代わり、認識できるよう文書セットだけを指定していれば十分です。これを実行するには、認識タブの中にあるバッチタイププロパティへ進みます。指定した定義に対応するセットは、十分に認識されます。
子要素の文書がセットのトップレベルに移動した場合、一致した定義がセットの構造に従っていないため、アセンブリーエラーが生じます。このようなエラーを避けるには、子要素の文書定義を一般的な認識リストに追加する必要があります。
以下も参照してください:
12.04.2024 18:16:25