Japanese (日本語)

構造化されていない文書からのデータのキャプチャ

文書には、手動または印刷機器で入力されたフィールドがあります。文書には1ページまたは複数のページがあります。

文書は、「固定」と「半構造化」文書にわけることができます。「固定」文書の場合、バッチのどの文書でも、同じ場所に同一のフィールドがあります。固定文書は、情報をデータフィールドから読み取り、データベース、文書管理システム、またはアーカイブアプリケーションにエクスポートする、文書処理アプリケーションで処理することができます。データは文書定義によってこのような文書でキャプチャされます。文書定義はフィールドの位置とそのフィールドに含まれる情報の種類を記述します。同一の文書定義が、所定のバッチのすべての文書からデータをキャプチャするのに使用されます。これは、文書処理アプリケーションに、文書のどこで特定のデータを探すか、いかにしてデータが正しくキャプチャされたことを確認するか、を指示します。

「半構造化」文書の場合、同一のデータフィールドの位置は文書によって異なります。また、すべてのフィールドがバッチのどの文書にも存在するわけではありません(署名フィールドの含まれている文書と含まれていない書類など)。半構造化文書の良い例は、さまざまな支払文書です。

レター、登録書式、法的文書は、半構造化文書の別の良い例です。同じ種類の文書には同様の構造がありますが、それらのフィールドの間には依然として相違があります。例えば、レターでは送付者の名前と所在地がページ上部に表示され、法的文書には当事者の名前と詳細情報、発効日などが含まれます。

半構造化文書のフィールドの正確な位置は事前にわからないため、文書定義でそのような文書からデータをキャプチャすることはできません。つまり、従来のデータキャプチャシステムでは、そのような文書からデータを抽出できないということです。

ABBYY FlexiLayout Studioでは、構造化されていない文書を形式的に記述し、検索アルゴリズムを提供し、データフィールドを検索してこれらのフィールドから情報を抽出できます。形式的な記述は、非構造化文書のフィールドとフィールド内のデータの性質の相互関係を頼りにします。作成された記述を文書画像で試験して、情報を高い信頼性で抽出できるかを確認できます。

ABBYY FlexiLayout Studioで作成された形式的な記述は、FlexiLayoutと呼ばれます。FlexiLayoutを使用して非構造化文書からデータをキャプチャするには、ABBYY FlexiCaptureなどのデータキャプチャアプリケーションにエクスポートする必要があります。ABBYY FlexiCaptureの技術は、幅広いデータキャプチャ機能を提供し、ほぼあらゆる種類の文書を処理できるようにします。

12.04.2024 18:16:07

Please leave your feedback about this article

Usage of Cookies. In order to optimize the website functionality and improve your online experience ABBYY uses cookies. You agree to the usage of cookies when you continue using this site. Further details can be found in our Privacy Notice.