正規化のためのブループリントを作成する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

正規化のためのブループリントを作成する

BDA には、特定の要件に従って抽出されたデータを変換および標準化できる正規化機能が用意されています。これらの正規化タスクは、キー正規化と値正規化に分類できます。

キー正規化

ドキュメントフィールドは、表現方法やラベル付け方法が異なることがよくあります。例えば、「社会保障番号」フィールドは、「SSN」、「Tax ID」、「TIN」などのバリエーションで表示される可能性があります。この課題に対応するため、BDA にはキー正規化が用意されています。これにより、フィールド定義内のバリエーションに関する指示を提供できます。

キー正規化を活用すれば、同じフィールドの異なる表現を認識し、標準化されたキーにマッピングするよう BDA をガイドできます。この機能により、ソースドキュメントに存在するバリエーションに関係なく、データが一貫して抽出および整理されます。

フィールド 手順 抽出タイプ タイプ

LastName

姓または姓

明示的

String

BirthNum

出生証明書のドキュメント番号またはファイル番号

明示的

String

OtherIncome

連邦政府および州政府のガソリン税や燃料税のクレジットまたは返金を含むその他の所得

明示的

Number

BusinessName

W9 に記入する企業、請負業者、または事業体の名前

明示的

String

力率

この使用明細項目に使用される力率または乗数

明示的

String

BirthPlace

子供が生まれる病院または施設の名前

明示的

String

けがの原因

けがや職業病の原因 (仕事との関連など)

明示的

String

事前定義された値セットまたは列挙型を持つフィールドの場合、フィールド命令内で期待される値または範囲を指定できます。例に示すように、バリエーションは引用符で囲むことをお勧めします。

フィールド 手順 抽出タイプ タイプ

LICENSE_CLASS

「A」、「B」、または「C」のいずれかの 1 文字のクラスコード

明示的

String

sex

性別。「M」または「F」のいずれか

明示的

String

InformantType

情報のタイプ。「親」または「その他」のいずれか

明示的

String

情報収集チャネル

「対面インタビュー」、「電話インタビュー」、「ファックスまたはメール」、「E メールまたはインターネット」のいずれか

明示的

String

値の非正規化

値の正規化はデータ処理パイプラインの重要なタスクであり、抽出されたデータを、一貫性のある標準化された形式に変換する必要があります。このプロセスにより、ダウンストリームシステムで互換性の問題やあいまいさが生じることなく、データをシームレスに消費して処理できるようになります。

BDA の正規化機能を使用すると、形式を標準化し、測定単位とキャスト値を特定のデータ型に変換できます。

値の正規化タスクでは、正規化後にドキュメントの未加工テキストまたは OCR と正確に一致しない可能性があるため、抽出タイプとして推定を使用する必要があります。例えば、「YYYY-MM-DD」のという形式にする必要がある「06/25/2022」のような日付値は、正規化後に「2022-06-25」として抽出されるため、ドキュメントからの OCR 出力と一致しません。

形式を標準化する: 値を定義済みの形式 (短縮コード、番号付けスキーム、特定の日付形式など) に変換できます。これにより、業界標準や組織の慣例に従うことで、データ表現の一貫性を確保できます。

フィールド 手順 抽出タイプ タイプ

ssn

SSN (XXX-XX-XXX 形式)

推定

String

STATE

状態の 2 文字のコード

推定

String

EXPIRATION_DATE

有効期限 (YYYY-MM-DD 形式)

推定

String

DATE_OF_BIRTH

ドライバーの生年月日 (YYYY-MM-DD 形式)

推定

String

CHECK_DATE

小切手に署名された日付。YYYY-MM-DD に形式変更

推定

String

PurchaseDate

車両の購入日 (mm/dd/yy 形式)

推定

String

「該当なし」などのシナリオを処理することにより、値を標準の測定単位または特定のデータ型に変換することもできます。

フィールド 手順 抽出タイプ タイプ

WEIGHT

重量をポンドに変換

推定

Number

HEIGHT

高さをインチに変換

推定

Number

nonqualified_plans_income

フィールド 11 の値。N/A の場合は 0。

推定

Number