翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
抽出用のブループリントの作成
BDA を使用すると、ブループリントの作成時にドキュメントから抽出する特定のデータフィールドを定義できます。これは、検索する情報とその情報を解釈する方法について BDA をガイドする一連の指示として機能します。
フィールドの定義
最初に、employee_id や product_name など、抽出が必要な各フィールドのプロパティを作成できます。フィールドごとに、説明、データ型、推論タイプを指定する必要があります。
抽出するフィールドを定義するには、次のパラメータを指定する必要があります。
-
フィールド名: フィールドが表す内容についての人間が読み取れる説明を入力します。この説明は、フィールドのコンテキストと目的を理解して、データを正確に抽出するのに役立ちます。
-
指示: フィールドが表す内容についての自然言語での説明を入力します。この説明は、フィールドのコンテキストと目的を理解して、データを正確に抽出するのに役立ちます。
-
タイプ: フィールドの値のデータ型を指定します。BDA では、以下のデータ型がサポートされています。
-
文字列: テキストベースの値の場合
-
数値: 数値の場合
-
ブール値: true/false 値の場合
-
配列: 同じタイプの複数の値を持つことができるフィールドの場合 (文字列の配列や数値の配列など)
-
-
推論タイプ: フィールドの値の抽出を処理する方法を BDA に指示します。サポートされている推論タイプは次のとおりです。
-
明示: BDA は、ドキュメントから直接値を抽出します。
-
推論: BDA は、ドキュメントに存在する情報に基づいて値を推測します。
-
すべてのパラメータを含むフィールド定義の例を次に示します。
この例では、以下のようになっています:
-
type は string に設定され、product_name フィールドの値をテキストベースにする必要があることを示しています。
-
inferenceType は Explicit に設定され、変換や検証を行わずにドキュメントから直接値を抽出するように BDA に指示します。
-
この指示では、追加のコンテキストを提供し、フィールドには追加の詳細なしで製品の短縮名を含める必要があることを明確にしています。
各フィールドにこれらのパラメータを指定することで、ドキュメントから目的のデータを正確に抽出して解釈するために必要な情報を BDA に提供します。
| フィールド | 手順 | 抽出タイプ | タイプ |
|---|---|---|---|
|
ApplicantsName |
申請者のフルネーム |
明示的 |
string |
|
DateOfBirth |
従業員の生年月日 |
明示的 |
string |
|
セールス |
総収益または売上 |
明示的 |
数値 |
|
Statement_starting_balance |
期首残高 |
明示的 |
数値 |
複数値フィールド
フィールドに複数の値が含まれる可能性がある場合は、配列またはテーブルを定義できます。
フィールドのリスト
値のリストを含むフィールドには、配列データ型を定義できます。
この例では、「OtherExpenses」は文字列の配列として定義されているため、BDA はそのフィールドに対して複数の経費項目を抽出できます。
テーブル
ドキュメントに表形式データが含まれている場合は、スキーマ内にテーブル構造を定義できます。
この例では、「SERVICES_TABLE」はテーブルタイプとして定義され、製品名、説明、数量、単価、金額などの列フィールドがあります。
適切なフィールドの説明、データ型、推論型を含む包括的なスキーマを定義することで、形式や表現のバリエーションに関係なく、BDA にドキュメントから目的の情報を正確に抽出させることができます。