Japanese (日本語)

メインフィールドの検出

この記事では、インボイスのメインフィールドがどのように検出され、キャプチャされるかについて説明します。

プログラムは、文書定義設定に従ってインボイスのコンテンツを事前認識して処理を開始します：

事前認識モード（高速/バランス保持/通常 / 正確）は、事前認識のスピード、および結果として取得されるテキストレイヤーの品質を決定します。事前認識モードを指定するには、文書定義エディタで文書定義 →文書定義プロパティ...→認識)。
事前認識言語とは、事前認識で使用される言語のことです。事前認識言語を指定するには、文書定義エディタで文書定義→文書定義プロパティ...→文書定義設定をクリックしてから編集が国と言語グループにあるのでクリックし、目的の言語を選択します。
注：FlexiCapture for Invoicesの認識言語は、国の設定に関連付けられています。国と言語グループにインボイスの国を追加すると、対応する言語が自動的に文書定義の設定に表示されます。インボイスのフィールドは認識時に抽出されます。

請求書のフィールドを検出してキャプチャするには、つぎのプログラムを使用することができます：

FlexiLayout
ニューラルネットワーク

両方の方法について以下で説明するとともに、アレゴリズムをご紹介します。このアレゴリズムは、これらの両方の方法を使用して得られた結果を組み合わせるか、最良の結果を選択するものです。

FlexiLayoutの使用

部署とベンダー

ベンダーとビジネスユニットを決定するために、以下を使用することができます：

ドキュメント定義の設定： IBAN、VATID、NationalVATID のフォーマットと、それに対応するキーワード；
データセットレコードフィールド： IBAN、VATID、NationalVATID、名前、通り、都市名、ZIP。

データセットのBusinessUnits列およびVendors列の詳細およびその使用方法については、BusinessUnitsデータセット и Vendorsデータセットを参照してください。

自動会社検出アルゴリズム

データセットの列に記入された情報の詳細と品質は、検出品質に大きな影響を与えます。可能な限り正確な検索結果を得るために、以下の点を確認してください：

会社固有の識別子が
固有の値の列（VATID、NationalVATID、IBAN）のFillingに記入されていると、これらの値はすべての会社に固有のものであるため、正しく検出される確率が大幅に向上します。
繰り返される会社の記録はありません
繰り返しの記録がないことで、その会社を正しく検出できる確率が高まります。重複したレコードの排除についての詳細な情報は、外部データベースの重複したレコードの排除を参照してください。
関連性のないレコードはありません
データセット内に古いレコードや無効なレコードが存在すると、様々なフィールド値の間に偶然の類似性があるため、会社が誤って検出される可能性があります。
すべてのフィールドは、すべての企業レコードに入力されます
企業に関する情報はできるだけ多く指定してください。データセットに記入されている項目が多ければ多いほど、企業を正しく検出できる確率が高くなります。
複数値の列は、まったく異なる情報ではなく、異なる方法で示される同じ情報を格納するために使用されます
たとえば、1つの会社に複数の住所がある場合、他のすべてのフィールドに同じ情報が含まれていても、それぞれに個別のレコードが必要です。詳細は、ベンダーと部署のデータベースの準備を参照してください。

ベンダーと部署の自動検出アルゴリズムは、以下のステップで構成されています：

ユニークな識別子の検索

以下のフィールドは、固有の会社の識別子とみなされます：

VATID、
NationalVATID、
IBAN。

ABBYY FlexiCapture for Invoicesは、文書画像で上記の値を検索します。文書定義プロパティ（文書定義設定タブ、国と言語グループ）では、VATID、NationalVATID、およびIBAN（フォーマットタブ）の各フォーマットと、キーワード（キーワードタブ）が、正規表現を使って国ごとに設定されています。

注：正しく記入されたキーワードや識別子のフォーマットは、検出品質を大幅に向上させます。

このプログラムでは、画像上でそのようなフィールドと完全に一致するものを探します。正規表現では、認識エラーの可能性を考慮することもできます。これは、拡張正規表現を使って行われます（拡張正規表現を参照してください）。

注：ABBYY FlexiCapture for Invoices にはプリセットの正規表現が用意されていますが、必要に応じて独自の正規表現を作成することもできます。 To do so, navigate to the 国と言語 group in the 文書定義設定 tab, select the appropriate country and click Edit….

検出された値は以下のように正規化されます：

文字は大文字に変更され、
スペースと以下の文字は削除されます：「。」、「、」、「—」、「／」、「＼」。

フィールドの文字プレフィックスがフォーマットタブの国のプロパティで正規表現を使用して指定されている場合、認識された接頭語は最初の接頭語（フォーマットタブの国のプロパティで設定）に置き換えられます。
たとえば、識別子「DE12345」は「OE12345」として認識されることがあります。検出されたプレフィックスOEは、正しいプレフィックスDEに置き換えられます。
文書画像上で検出されたVATID、NationalVATID、およびIBANフィールドは、データセットのクエリに使用されます。データセットのフィールドから受け取ったVATID、NationalVATID、IBANの列の値は、画像上で検出された値と同じ方法で正規化された後、画像上で検出されたフィールドの正規化された値と照合（完全一致を使用）されます。

会社名と所在地検索

すべての文書のテキストを使用して、最も正確に一致するレコードを探すクエリがデータセットに送信されます。

画像上で検出されたその名前、通り、ZIPおよび都市名の値は、対応するデーターセットのレコード値と一致します。
注：名前や会社の検索結果を最良のものにするために、対応するデーターセットの列が入力されていることを確認してください。会社名と住所の情報は、VATID 、NationalVATID、またはIBANで会社を特定できない場合に特に重要です。

仮説の形成

手順1、2で見つけた会社を使って、一連の仮説を立てます。ABBYY FlexiCapture for Invoices では、これらの仮説を評価した上で、文書画像のフィールド値と最も確実に一致する 5 つのベンダーレコードと 5 つの部署のレコードを選択します。これらのレコードは、ベンダーと部署の25組のペアを形成することに使い、各ペアを個別の仮説として扱います。次に、ニューラルネットワークアルゴリズムを用いて仮説の信頼性を評価し、最も適合性の高いベンダーと部署のペアが最終的な仮説となり、ベンダーと部署の検出結果が得られます。

注：ベンダーのデータベースのみが接続されている場合、ベンダーと部署のペア評価の品質に悪影響を及ぼす可能性があります。部署の検出が必要でない場合でも、部署のデータベースの接続を推奨します。詳細は、データベースの接続をご覧ください。

注：部署の数が非常に少ない場合（例：1）、このようなデータベースを接続しても、評価に大きな影響はありません。しかし、そうすることで、部署がベンダーとして誤って検出されている場合、検出品質が向上する可能性があります。

仮説フィルタリング

仮説は、一致の信頼性（データセットレコードと文書画像のフィールド値）に基づいて、以下のように分けられます：

文書画像を確実に一致させる；
文書画像との一致が不安定になります。

検証シナリオに応じて、ベンダーや部署を検出する際に仮説の信頼性を考慮するかどうかを決めることができます。ABBYY FlexiCapture for Invoices で信頼できる仮説のみから最終的な仮説を選択したい場合は、InvoiceReader/ShouldFilterUnsureCompanyHypothes レジストリフラグを使用してフィルタリングすることができ、このフラグは次の値に設定できます：

true ーフィルタリングが有効で，信頼性の高い仮説の中から最終的な仮説だけが選択されます（デフォルト値）；
false ーフィルタリングが無効になり、最終的な仮説は信頼性に関係なくすべての仮説から選択されます；

仮説のフィルタリングは、ベンダーと部署では動作が異なることに注意してください：

ベンダーを検出する際、ベンダーに対する信頼性の低い仮説は考慮されません。信頼できる仮説がなければ、ベンダーは検出されません。
部署を検出する場合：

少なくとも1つの信頼できる仮説が見つかった場合は、信頼できない仮説は考慮されません；
手順1から3で取得した一連の仮説に、信頼できる仮説が少なくとも1つ含まれていない場合、そのフラグ値は無視されます。最終的な仮説は、信頼性のない仮説の中から選ばれます。

上記は、ベンダーと部署のデータセット違いによるものです：

通常、会社の部署のレコードは、ベンダーの記録よりもはるかに少ないです。また、変更頻度もはるかに少ないため、最新の状態に保つのが簡単です。そのため、信頼性の高い仮説を検出することで、最終的な仮説が正しい確率が高まります。ただし、検出結果の信頼性に関する最も重要な要素はベンダーと部署のペアの信頼性評価であるため、信頼できる仮説が見つからない場合でも、部署の検出は重要です。
通常、ベンダーのレコード数ははるかに多く、データセットにはより多くの列が含まれます。これは、ベンダーがインボイスに（部署とは対照的に）自社に関するより多くの情報を記載するためです。記録には古い情報が含まれることもあるため、信頼性の低い仮説のフィルタリングは、データセットの品質と検証シナリオの種類の両方に依存することになります。

注：信頼性の高い仮説を検出する確率を高めるために、データセットを常に最新の状態に保ち、ベンダーや部署に関する情報をできるだけ多く含むようにします。

ベンダーおよび部署の検出結果

インボイスでベンダーや部署を検出した場合の主な結果：

まず、Vendorsデータセット
次にBusinessUnitsデータセット

注：もし、Vendorsデータセットが、IDを指定するかどうかはBusinessUnitId（参照：Vendors データセットの列」を参照）、BusinessUnitId に対応する Id がベンダー検出の結果に含まれるようになります。

部署の検出は信頼できないこともあります。そのような場合は、文書の登録パラメータfc_Predefined:InvoiceIsVendorSuspicious(fc_Predefined:InvoiceIsBusinessUnitSuspicious）がtrueに設定されます。

検出結果として、以下のフィールドの領域がベンダーや部署が見つかることがあります：

ベンダー：

名前
VAT ID
NationalVATID
IBAN
その他住所
郵便番号
市

部署：

名前
VAT ID
その他住所
郵便番号
市

これらの領域の場所を画像で調査することで、プログラムが画像のどの場所でベンダーと部署グループのフィールドを検出したかが正確にわかります。両フィールドは、ベンダーと部署を検出できるよう有効になっています。

注：IBAN および VATID のフィールド値が Vendors データセットに存在しない場合は、キーワードとフォーマットを使用して、銀行の詳細が検出されるのと同じ方法で、適切な値を検出することができます（対応するベンダーが見つかった場合）。

注：フィールド領域の検索は、トレーニングや追加 FlexiLayout を適用することで変更できます（「インボイスの追加フィールドのキャプチャ」を参照）。これはベンダーや部署の検出には影響しませんが、文書定義とインボイスの照会後、これらのグループにあるフィールド領域の場所に影響することがあります。

ベンダーや部署の検出結果の重要な点は、対応する国に関する情報が、データセットで見つかったレコードの CountryCode フィールドから取得されることです。この情報はその後、キーワードや税率の選択、およびその他のインボイスフィールドのキャプチャに使用されます。インボイスの検証ルールを開始する条件としても使用されます。

プログラムによるベンダーや部署の検出を変更する方法

データセットにあるベンダーや部署のレコードがインボイス画像から抽出されたテキストにマッチすればするほど、プログラムによるベンダーや部署の検出精度も高くなります。

まず、インボイスの会社検索に使用されるデータセット列に対応する外部データベースのデータを識別する必要があります。外部データベースとデータセットは、適切に接続されていることが必要です（ベンダーや部署のデータベースの接続)。

同一の会社がベンダーリストと部署リストに存在する場合、インボイスに VATID がない場合であっても、各データセット内のレコードに同じ VATID を指定する必要があります。これによって、プログラムがベンダーや部署を不正確に検出するのを防ぐことができます。

画像のフィールド値で考えられる差異を補完するためには、以下を使用します：

データセット列の正規化（詳細→データセットの値の正規化),
複数の値を持つデータセット列（データセットの複数の値を持つ列)。

抽出された値とともに事前定義のベンダー値や部署値の使用

インボイスの発行元に基づいて、インボイスの会社の仕入先または部署を事前できます（スキャンオペレータの名前や、メッセージ送信者のメールアドレス）。

ユーザーは、自動検出前にベンダーや部署を明示的に指定しておくことができます。

そのためには、文書登録パラメータの値fc_Predefined:InvoicePredefinedVendorId(fc_Predefined:InvoicePredefinedBusinessUnitId）を、ID（ID）のエントリーのVendorsまたはBusinessUnitsデータセットに存在するかどうかチェックします。

これを実行しても、ベンダーや部署の自動検出が機能しなくなることはありません。この操作によって、事前定義されたベンダーや部署に加え、信頼値（事前定義された値と画像から抽出された値のマッチの程度）のほか、ベンダーグループや部署グループからのフィールド領域も取得できます。

インボイスヘッダーのフィールドのグループ

フィールドの金額グループ

ABBYY FlexiCapture for Invoicesは、インボイスから以下のフィールドをキャプチャします：

フィールド	インボイス処理（Au-NZ）インボイス処理（US）インボイス処理（CA）インボイス処理（EU）インボイス処理（JP）	インボイス処理（ES）
インボイスの合計金額（合計）とインボイスの通貨（通貨）	はい	はい
税：税抜き合計（NetAmount0）税前のインボイス合計額（TotalNetAmount）支払税額（TotalTaxAmount）	はい	はい
税グループ（税前の合計（NetAmount）、支払税額（TaxAmount）、税率（TaxRate））	いいえ	はい
追加税（AdditionalCosts）	はい	はい

文書定義からの情報は、合計や税率の検索で使用されます：

ベンダーの国の支払税率（国のプロパティの税率タブで指定できます。詳しくはこちら→国と言語の設定)
税率のキーワード（原語のプロパティのキーワードタブで指定できます。またこちらも参照してください→キーワード)。

プログラムは、画像で税率を 2 つまで検索しようとします。インボイスに 2 つ以上の税率がある場合、追加フィールドを作成して手動でデータフォームに記入できます。

プログラムはキーワードを使ってTotalTaxとTotalNettoフィールドを検出します。これらのキーワードは、その使い方に応じて国や言語のプロパティで指定できます（詳細→国と言語の設定)。キーワードの詳細はこちら→キーワード。

合計フィールドには2 つのキーワードがあり、それぞれカテゴリーが異なります（見つかった要素カテゴリーについてはこちら→キーワード）：

AmountTotalHighConfidenceLabels：合計フィールドの付近にのみ発生するキーワード（「支払金額」など）です。
AmountTotalLowConfidenceLabels：合計フィールドの付近でもその他のフィールドでも発生する可能性があるキーワードです。たとえば「合計」というキーワードは、合計フィールド付近に表示されますが、インボイスに記載された全項目の総重量が含まれているフィールドにも発生することもあります。

ヒント。これら 2 つのカテゴリーのどちらをキーワードに追加すればいいか不明な場合は：AmountTotalHighConfidenceLabels。キーワードによってプログラムが別のフィールドを合計フィールドと識別してしまう場合は、AmountTotalLowConfidenceLabels。

キーワードに加えて、プログラムは合計フィールドを検出しようとすると次の項目を探します:合計フィールドで指定された値によって異なります:

画像の同じ行や列で 2～3 回発生する数字。そのような数字は、税が指定されていないインボイスでは合計である可能性があります。
同じ列にある数字の上部にあり、その合計である数字。
文書の最後にある（絶対値で）最大の数字。

プログラムは、通貨フィールドを検索します。これは合計フィールドが検出されたときのみです。文書定義にある国のプロパティからのキーワードが使用されます。

画像で検出されなかった金額グループからのフィールドは、自動で計算されます。例外：合計フィールド。このフィールドは画像で検出される必要があります。

プログラムが金額フィールドから情報を正しく検出できない場合は、検証を必要とするマークが合計フィールドに付けられます。

プログラムが高い確信を持って合計と通貨フィールドを検出できなかった場合や、どちらのフィールドも検出できなかった場合は、トレーニングを使って抽出データの質を改善できます。

フィールドの発注グループ

ABBYY FlexiCapture for Invoicesは、すべての発注番号と対応する合計をインボイスから抽出できます。

この機能は既定で無効にされています（詳細：発注書のマッチング)。

発注番号を抽出するためには、発注番号と思われる数字とその合計があるデータセットが必要です（PurchaseOrders データセットの列)。

発注フィールドは、以下を使用して抽出できます：

正規表現
発注番号と思われる項目を含んでいるデータセット（PurchaseOrders データセットの列)。

発注番号と思われる項目を持つデータセットが使用されると、ABBYY FlexiCapture for Invoicesはこのデータセットからの番号を画像で検索します。データベースに保存する発注番号数はなるべく少なくすることが得策です。それにはいくつかの方法があります：

次のVendorId列を使用します：データセット。この場合、プログラムはインボイスのベンダーからの発注番号のみを使用します。
既に届いたインボイスに関する発注書をフィルターし、インボイスがまだデータセットに届いていない発注書の番号のみ追加します。

プログラムは、検出された発注番号に対応する合計金額をデータベースで検索します。

また、インボイスの明細項目にあるものも含め、画像で発注番号をすべて検索します。

発注は通常、購買者の ERP システムによって生成されます。そのため、特定の部署に発行されるインボイスは類似する傾向にあります。これらは通常、正規表現を用いて表現できます。

発注番号用の正規表現がある場合、プログラムは画像で表現を満たす番号をすべて検出します。正規表現は、以下のタグを使用して XML 設定ファイルで指定できます：

.<InvoiceSettings>
...
<OrderNumber>
<Value>
<RegularExpression></RegularExpression>
</Value>
</OrderNumber>
</InvoiceSettings>

XML構成ファイルについて詳しくはこちら→XML ファイルでのインボイス処理設定の編集。

フィールドの明細項目グループ

ニューラルネットワークの使用

ニューラルネットワークにみられるおもだった長所のひとつは、自己学習能力です。ニューラルネットワークは、入力データのあいだに存在する複雑な依存関係を検出し、有益なものを複数件、一般化することが可能です。

プログラムには、つぎのフィールドをキャプチャするために使用できる2つのニューラルネットワークが含まれています。

InvoiceNumber
InvoiceDate
合計
ベンダー\名前
ベンダー\住所
部署\名称
部署\所在地
発注書\発注書番号
明細項目：

発注書番号
発注日
役職
商品コード
摘要
数量
測定単位
単価
正味金額合計
付加価値税率

最高の精度を得るために、このプログラムではFlexiLayoutとニューラルネットワークの両方を使って、請求書フィールドをキャプチャします。プログラムがニューラルネットワークを使って抽出できなかったフィールドについては、FlexiLayoutで抽出します。ニューラルネットワークとFlexiLayoutの両方でフィールドを抽出できる場合、プログラムは、両方の方法で得られた結果を、データ処理能力を駆使して組み合わせます。結果の組み合わせ方は、フィールドによって異なります（詳しくは「フィールド検出結果の組み合わせ」を参照してください）。

ニューラルネットワークの無効化

デフォルトでは、ニューラルネットワークは、文書フィールドをキャプチャする2番めの方法として使用されます。請求書プロジェクト内で請求書以外の文書を処理する必要がある場合、ニューラルネットワークを無効にする必要に迫られる場合があります。これは、ニューラルネットワークが、請求書フィールドをキャプチャするように特別にトレーニングされており、他のタイプの文書ではうまく機能しないことがあるためです。

明細項目グループのニューラルネットワークを無効にするには、つぎのとおりにしてください：

文書定義エディタを開きます。
つぎをクリックしてください：文書定義プロパティ...→文書定義設定→追加フィールドと機能。
オプションを高度な請求書の明細行無効にしてください。

請求書ヘッダー、ベンダー、部署、発注書グループのニューラルネットワークを無効にするには、つぎのとおりにしてください：

文書定義エディタを開きます。
つぎをクリックしてください：文書定義プロパティ...→文書定義設定→追加フィールドと機能。
オプションを高度な請求書ヘッダーフィールド無効にしてください。

フィールド検出結果の組み合わせ

プログラムがフィールド検出結果を組み合わせる方法、または最良の結果を選択する方法は、フィールドによって異なります。原則として、それぞれのニューラルネットワークで得られた結果が優先されます。データセットにもとづく検索と、特定の顧客の文書向けに作成された正規表現を使用した検索は、例外として、このルールの適用を受けません。

請求書ヘッダーフィールドグループ

ニューラルネットワークによって取得された結果は、つぎのフィールドでは常に優先されます。

請求書番号
請求日
合計

部署とベンダー

データセットが選択されている場合、デフォルトでは、部署とベンダーはデータセットにもとづいて検出されます。

また、データセットに対応する記録がない場合、ニューラルネットワークを使用してつぎのフィールドが検出される場合があります。

名前
付加価値税登録番号（オーストラリア企業納税登録番号）
住所

データセットが選択されていない場合は、ニューラルネットワークのみが使用されます。

発注書フィールドグループ

データセットまたは正規表現によって値が検出されない場合にかぎって、ニューラルネットワークが使用されます。

明細項目

明細項目フィールドの場合、ニューラルネットワークで得られた結果が優先されます。ニューラルネットワークが明細項目の表全体を検出した場合、この表がそれ以降の処理に使用されます。それ以外の場合、プログラムはFlexiLayoutによって検出された明細項目を使用します。

ニューラルネットワークでは、各明細項目の「摘要」や「正味金額合計」のフィールドしか検出しなかった場合、FlexiLayoutによって検出されたフィールドで補完されます。

4/12/2024 6:16:06 PM

Please leave your feedback about this article

Name

E-mail

Comment

メインフィールドの検出

FlexiLayoutの使用

部署とベンダー

自動会社検出アルゴリズム

仮説フィルタリング

ベンダーおよび部署の検出結果

プログラムによるベンダーや部署の検出を変更する方法

抽出された値とともに事前定義のベンダー値や部署値の使用

インボイスヘッダーのフィールドのグループ

InvoiceNumber、InvoiceDate

文書がインボイスであることをプログラムが検出する方法

フィールドの金額グループ

フィールドの発注グループ

フィールドの明細項目グループ

ニューラルネットワークの使用

ニューラルネットワークの無効化

フィールド検出結果の組み合わせ

Please leave your feedback about this article

Your use of this site is conditioned on Your continued compliance with the Terms of Use.

Terms of Use

Disclaimer of Warranty

Limitation of Liability

Transmission and Submission of Information

Downloads

Use of Content

Trademarks

Links to Third-Party Sites

Foreign Legislation

Subscription Terms

Partner Subscription Terms

メインフィールドの検出

FlexiLayoutの使用

部署とベンダー

自動会社検出アルゴリズム

仮説フィルタリング

ベンダーおよび部署の検出結果

プログラムによるベンダーや部署の検出を変更する方法

抽出された値とともに事前定義のベンダー値や部署値の使用

インボイスヘッダーのフィールドのグループ

InvoiceNumber、InvoiceDate

文書がインボイスであることをプログラムが検出する方法

フィールドの金額グループ

フィールドの発注グループ

フィールドの明細項目グループ

ニューラルネットワークの使用

ニューラルネットワークの無効化

フィールド検出結果の組み合わせ

Please leave your feedback about this article