建立標準化藍圖 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立標準化藍圖

BDA 提供標準化功能,可讓您根據您的特定需求轉換及標準化擷取的資料。這些標準化任務可以分類為金鑰標準化和值標準化。

金鑰標準化

在許多情況下,文件欄位的表示或標記方式可能有所不同。例如,「社會安全號碼」欄位可以顯示為「SSN」、「稅務 ID」、「TIN」或其他類似的變化。為了解決此挑戰,BDA 提供金鑰標準化,可讓您提供有關欄位定義內變化的說明。

透過運用金鑰標準化,您可以引導 BDA 辨識並將相同欄位的不同表示法對應至標準化金鑰。此功能可確保資料持續擷取及整理,無論來源文件中是否存在變化。

欄位 指示 擷取類型 Type

LastName

人員的姓氏

Explicit

String

BirthNum

出生憑證的文件號碼或檔案號碼

Explicit

String

OtherIncome

其他收入,包括聯邦和州的汽油或燃油稅額減免或退稅

Explicit

Number

BusinessName

填寫 W9 的企業、承包商或實體名稱

Explicit

String

power factor

用於此用量明細項目的功率因數或乘數

Explicit

String

BirthPlace

兒童出生的醫院或機構名稱

Explicit

String

Cause of Injury

傷害或職業疾病的原因,包括其與工作的相關性

Explicit

String

對於具有預先定義值集或列舉的欄位,您可以在欄位指示中提供預期的值或範圍。建議您將變化包含在引號中,如範例所示。

欄位 指示 擷取類型 Type

LICENSE_CLASS

單一字母類別代碼,「A」、「B」或「C」其中之一

Explicit

String

sex

性別。「M」或「F」之一

Explicit

String

InformantType

資訊的類型。「父」或「其他」之一

Explicit

String

資訊收集管道

下列其中一項:「面對面訪談」、「電話訪談」、「傳真或郵件」、「電子郵件或網際網路」

Explicit

String

值標準化

值標準化是資料處理管道中的關鍵任務,其中擷取的資料需要轉換為一致且標準化的格式。此程序可確保下游系統可以順暢地使用及處理資料,而不會遇到相容性問題或模棱兩可的情況。

您可以在 BDA 中使用標準化功能來標準化格式、轉換度量單位,並將值轉換為特定資料類型。

對於值標準化任務,應該使用推斷的擷取類型,因為在標準化之後,該值可能不完全符合文件的原始文字或 OCR。例如,需要格式化為「YYYY-MM-DD」的日期值「06/25/2022」在標準化之後,會擷取為「2022-06-25」,因此不符合文件中的 OCR 輸出。

標準化格式:您可以將值轉換為預先定義的格式,例如縮短的代碼、編號配置或特定日期格式。這可讓您遵守產業標準或組織慣例,以確保資料呈現的一致性。

欄位 指示 擷取類型 Type

ssn

SSN,格式為 XXX-XX-XXX

推斷

String

STATE

州的兩個字母代碼

推斷

String

EXPIRATION_DATE

到期日期,格式為 YYYY-MM-DD

推斷

String

DATE_OF_BIRTH

駕駛的出生日期,格式為 YYYY-MM-DD

推斷

String

CHECK_DATE

檢查簽署的日期。重新格式化為 YYYY-MM-DD

推斷

String

PurchaseDate

購買車輛的日期,格式為 mm/dd/yy

推斷

String

您也可以處理類似「不適用」的案例,將值轉換為標準度量單位,或轉換為特定資料類型。

欄位 指示 擷取類型 Type

WEIGHT

重量轉換為井字號

推斷

Number

HEIGHT

高度轉換為英吋

推斷

Number

nonqualified_plans_income

欄位 11.0 中的值 (如果為 N/A)。

推斷

Number