本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立標準化藍圖
BDA 提供標準化功能,可讓您根據您的特定需求轉換及標準化擷取的資料。這些標準化任務可以分類為金鑰標準化和值標準化。
金鑰標準化
在許多情況下,文件欄位的表示或標記方式可能有所不同。例如,「社會安全號碼」欄位可以顯示為「SSN」、「稅務 ID」、「TIN」或其他類似的變化。為了解決此挑戰,BDA 提供金鑰標準化,可讓您提供有關欄位定義內變化的說明。
透過運用金鑰標準化,您可以引導 BDA 辨識並將相同欄位的不同表示法對應至標準化金鑰。此功能可確保資料持續擷取及整理,無論來源文件中是否存在變化。
| 欄位 | 指示 | 擷取類型 | Type |
|---|---|---|---|
|
LastName |
人員的姓氏 |
Explicit |
String |
|
BirthNum |
出生憑證的文件號碼或檔案號碼 |
Explicit |
String |
|
OtherIncome |
其他收入,包括聯邦和州的汽油或燃油稅額減免或退稅 |
Explicit |
Number |
|
BusinessName |
填寫 W9 的企業、承包商或實體名稱 |
Explicit |
String |
|
power factor |
用於此用量明細項目的功率因數或乘數 |
Explicit |
String |
|
BirthPlace |
兒童出生的醫院或機構名稱 |
Explicit |
String |
|
Cause of Injury |
傷害或職業疾病的原因,包括其與工作的相關性 |
Explicit |
String |
對於具有預先定義值集或列舉的欄位,您可以在欄位指示中提供預期的值或範圍。建議您將變化包含在引號中,如範例所示。
| 欄位 | 指示 | 擷取類型 | Type |
|---|---|---|---|
|
LICENSE_CLASS |
單一字母類別代碼,「A」、「B」或「C」其中之一 |
Explicit |
String |
|
sex |
性別。「M」或「F」之一 |
Explicit |
String |
|
InformantType |
資訊的類型。「父」或「其他」之一 |
Explicit |
String |
|
資訊收集管道 |
下列其中一項:「面對面訪談」、「電話訪談」、「傳真或郵件」、「電子郵件或網際網路」 |
Explicit |
String |
值標準化
值標準化是資料處理管道中的關鍵任務,其中擷取的資料需要轉換為一致且標準化的格式。此程序可確保下游系統可以順暢地使用及處理資料,而不會遇到相容性問題或模棱兩可的情況。
您可以在 BDA 中使用標準化功能來標準化格式、轉換度量單位,並將值轉換為特定資料類型。
對於值標準化任務,應該使用推斷的擷取類型,因為在標準化之後,該值可能不完全符合文件的原始文字或 OCR。例如,需要格式化為「YYYY-MM-DD」的日期值「06/25/2022」在標準化之後,會擷取為「2022-06-25」,因此不符合文件中的 OCR 輸出。
標準化格式:您可以將值轉換為預先定義的格式,例如縮短的代碼、編號配置或特定日期格式。這可讓您遵守產業標準或組織慣例,以確保資料呈現的一致性。
| 欄位 | 指示 | 擷取類型 | Type |
|---|---|---|---|
|
ssn |
SSN,格式為 XXX-XX-XXX |
推斷 |
String |
|
STATE |
州的兩個字母代碼 |
推斷 |
String |
|
EXPIRATION_DATE |
到期日期,格式為 YYYY-MM-DD |
推斷 |
String |
|
DATE_OF_BIRTH |
駕駛的出生日期,格式為 YYYY-MM-DD |
推斷 |
String |
|
CHECK_DATE |
檢查簽署的日期。重新格式化為 YYYY-MM-DD |
推斷 |
String |
|
PurchaseDate |
購買車輛的日期,格式為 mm/dd/yy |
推斷 |
String |
您也可以處理類似「不適用」的案例,將值轉換為標準度量單位,或轉換為特定資料類型。
| 欄位 | 指示 | 擷取類型 | Type |
|---|---|---|---|
|
WEIGHT |
重量轉換為井字號 |
推斷 |
Number |
|
HEIGHT |
高度轉換為英吋 |
推斷 |
Number |
|
nonqualified_plans_income |
欄位 11.0 中的值 (如果為 N/A)。 |
推斷 |
Number |