構造化されていない文書からのデータのキャプチャ
文書には、手動または印刷機器で入力されたフィールドがあります。文書には1ページまたは複数のページがあります。
文書は、「固定」と「半構造化」文書にわけることができます。「固定」文書の場合、バッチのどの文書でも、同じ場所に同一のフィールドがあります。固定文書は、情報をデータフィールドから読み取り、データベース、文書管理システム、またはアーカイブアプリケーションにエクスポートする、文書処理アプリケーションで処理することができます。データは文書定義によってこのような文書でキャプチャされます。文書定義はフィールドの位置とそのフィールドに含まれる情報の種類を記述します。同一の文書定義が、所定のバッチのすべての文書からデータをキャプチャするのに使用されます。これは、文書処理アプリケーションに、文書のどこで特定のデータを探すか、いかにしてデータが正しくキャプチャされたことを確認するか、を指示します。
「半構造化」文書の場合、同一のデータフィールドの位置は文書によって異なります。また、すべてのフィールドがバッチのどの文書にも存在するわけではありません(署名フィールドの含まれている文書と含まれていない書類など)。半構造化文書の良い例は、さまざまな支払文書です。
レター、登録書式、法的文書は、半構造化文書の別の良い例です。同じ種類の文書には同様の構造がありますが、それらのフィールドの間には依然として相違があります。例えば、レターでは送付者の名前と所在地がページ上部に表示され、法的文書には当事者の名前と詳細情報、発効日などが含まれます。
半構造化文書のフィールドの正確な位置は事前にわからないため、文書定義でそのような文書からデータをキャプチャすることはできません。つまり、従来のデータキャプチャシステムでは、そのような文書からデータを抽出できないということです。
ABBYY FlexiLayout Studioでは、構造化されていない文書を形式的に記述し、検索アルゴリズムを提供し、データフィールドを検索してこれらのフィールドから情報を抽出できます。形式的な記述は、非構造化文書のフィールドとフィールド内のデータの性質の相互関係を頼りにします。作成された記述を文書画像で試験して、情報を高い信頼性で抽出できるかを確認できます。
ABBYY FlexiLayout Studioで作成された形式的な記述は、FlexiLayoutと呼ばれます。FlexiLayoutを使用して非構造化文書からデータをキャプチャするには、ABBYY FlexiCaptureなどのデータキャプチャアプリケーションにエクスポートする必要があります。ABBYY FlexiCaptureの技術は、幅広いデータキャプチャ機能を提供し、ほぼあらゆる種類の文書を処理できるようにします。
12.04.2024 18:16:07