翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
正規化のためのブループリントを作成する
BDA には、特定の要件に従って抽出されたデータを変換および標準化できる正規化機能が用意されています。これらの正規化タスクは、キー正規化と値正規化に分類できます。
キー正規化
ドキュメントフィールドは、表現方法やラベル付け方法が異なることがよくあります。例えば、「社会保障番号」フィールドは、「SSN」、「Tax ID」、「TIN」などのバリエーションで表示される可能性があります。この課題に対応するため、BDA にはキー正規化が用意されています。これにより、フィールド定義内のバリエーションに関する指示を提供できます。
キー正規化を活用すれば、同じフィールドの異なる表現を認識し、標準化されたキーにマッピングするよう BDA をガイドできます。この機能により、ソースドキュメントに存在するバリエーションに関係なく、データが一貫して抽出および整理されます。
| フィールド | 手順 | 抽出タイプ | タイプ |
|---|---|---|---|
|
LastName |
姓または姓 |
明示的 |
String |
|
BirthNum |
出生証明書のドキュメント番号またはファイル番号 |
明示的 |
String |
|
OtherIncome |
連邦政府および州政府のガソリン税や燃料税のクレジットまたは返金を含むその他の所得 |
明示的 |
Number |
|
BusinessName |
W9 に記入する企業、請負業者、または事業体の名前 |
明示的 |
String |
|
力率 |
この使用明細項目に使用される力率または乗数 |
明示的 |
String |
|
BirthPlace |
子供が生まれる病院または施設の名前 |
明示的 |
String |
|
けがの原因 |
けがや職業病の原因 (仕事との関連など) |
明示的 |
String |
事前定義された値セットまたは列挙型を持つフィールドの場合、フィールド命令内で期待される値または範囲を指定できます。例に示すように、バリエーションは引用符で囲むことをお勧めします。
| フィールド | 手順 | 抽出タイプ | タイプ |
|---|---|---|---|
|
LICENSE_CLASS |
「A」、「B」、または「C」のいずれかの 1 文字のクラスコード |
明示的 |
String |
|
sex |
性別。「M」または「F」のいずれか |
明示的 |
String |
|
InformantType |
情報のタイプ。「親」または「その他」のいずれか |
明示的 |
String |
|
情報収集チャネル |
「対面インタビュー」、「電話インタビュー」、「ファックスまたはメール」、「E メールまたはインターネット」のいずれか |
明示的 |
String |
値の非正規化
値の正規化はデータ処理パイプラインの重要なタスクであり、抽出されたデータを、一貫性のある標準化された形式に変換する必要があります。このプロセスにより、ダウンストリームシステムで互換性の問題やあいまいさが生じることなく、データをシームレスに消費して処理できるようになります。
BDA の正規化機能を使用すると、形式を標準化し、測定単位とキャスト値を特定のデータ型に変換できます。
値の正規化タスクでは、正規化後にドキュメントの未加工テキストまたは OCR と正確に一致しない可能性があるため、抽出タイプとして推定を使用する必要があります。例えば、「YYYY-MM-DD」のという形式にする必要がある「06/25/2022」のような日付値は、正規化後に「2022-06-25」として抽出されるため、ドキュメントからの OCR 出力と一致しません。
形式を標準化する: 値を定義済みの形式 (短縮コード、番号付けスキーム、特定の日付形式など) に変換できます。これにより、業界標準や組織の慣例に従うことで、データ表現の一貫性を確保できます。
| フィールド | 手順 | 抽出タイプ | タイプ |
|---|---|---|---|
|
ssn |
SSN (XXX-XX-XXX 形式) |
推定 |
String |
|
STATE |
状態の 2 文字のコード |
推定 |
String |
|
EXPIRATION_DATE |
有効期限 (YYYY-MM-DD 形式) |
推定 |
String |
|
DATE_OF_BIRTH |
ドライバーの生年月日 (YYYY-MM-DD 形式) |
推定 |
String |
|
CHECK_DATE |
小切手に署名された日付。YYYY-MM-DD に形式変更 |
推定 |
String |
|
PurchaseDate |
車両の購入日 (mm/dd/yy 形式) |
推定 |
String |
「該当なし」などのシナリオを処理することにより、値を標準の測定単位または特定のデータ型に変換することもできます。
| フィールド | 手順 | 抽出タイプ | タイプ |
|---|---|---|---|
|
WEIGHT |
重量をポンドに変換 |
推定 |
Number |
|
HEIGHT |
高さをインチに変換 |
推定 |
Number |
|
nonqualified_plans_income |
フィールド 11 の値。N/A の場合は 0。 |
推定 |
Number |