

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建标准化蓝图
<a name="idp-cases-normalization"></a>

BDA 提供标准化功能，支持根据特定要求对提取的数据进行转换和标准化。这些标准化任务可以分为键标准化和值标准化。

**键标准化**  
在许多情况下，文档字段的表示或标注方式可能有所不同。例如，“社会保险号码”字段可能显示为“SSN”、“税号”、“TIN”或其他类似变体。为了解决这个难题，BDA 提供了键标准化，便于为字段定义中的变体提供指令。

利用键标准化，您可以指导 BDA 识别同一字段的不同表示形式，并将其映射到标准化键。此功能可确保无论源文档中存在何种数据变体，都能一致地提取和组织数据。


| 字段 | 说明 | 提取类型 | Type | 
| --- | --- | --- | --- | 
|  LastName  |  用户的姓氏  |  显式  |  字符串  | 
|  BirthNum  |  出生证的证件号或文件号  |  显式  |  字符串  | 
|  OtherIncome  |  其他收入，包括联邦和州的汽油或燃油税抵免或退款  |  显式  |  数字  | 
|  BusinessName  |  填写 W9 的企业、承包商或实体的名称  |  显式  |  字符串  | 
|  功率因数  |  用于此使用量行项目的功率因数或乘数  |  显式  |  字符串  | 
|  BirthPlace  |  孩子出生的医院或机构的名称  |  显式  |  字符串  | 
|  受伤原因  |  受伤或职业病的原因，包括与工作的关系  |  显式  |  字符串  | 

对于包含预定义值集或枚举的字段，可以在字段指令中提供预期值或范围。建议用引号括住变体，如示例所示。


| 字段 | 说明 | 提取类型 | Type | 
| --- | --- | --- | --- | 
|  LICENSE\$1CLASS  |  单字母类别代码，“A”、“B”或“C”之一  |  显式  |  字符串  | 
|  性别  |  性别。“M”或“F”之一  |  显式  |  字符串  | 
|  InformantType  |  信息的类型。“父母”或“其他”之一  |  显式  |  字符串  | 
|  信息收集渠道  |  以下项之一：“面对面采访”、“电话采访”、“传真或邮件”、“电子邮件或互联网”  |  显式  |  字符串  | 

**值标准化**  
值标准化是数据处理管道中的一项关键任务，需要将提取的数据转换为一致的标准化格式。此过程可确保下游系统可以无缝使用和处理数据，不会遇到兼容性问题或歧义。

使用 BDA 中的标准化功能，可以标准化格式、转换度量单位以及将值转换为特定的数据类型。

对于值标准化任务，应使用“推断”提取类型，因为经过标准化后，该值可能与文档的原始文本或 OCR 不完全匹配。例如，像“06/25/2022”这样需要格式化为“YYYY-MM-DD”格式的日期值在标准化后的提取值为“2022-06-25”，因此与文档的 OCR 输出不匹配。

标准化格式：可以将值转换为预定义格式，例如缩短代码、编号方案或特定的日期格式。这样就可以通过遵守行业标准或组织惯例来确保数据表示的一致性。


| 字段 | 说明 | 提取类型 | Type | 
| --- | --- | --- | --- | 
|  SSN  |  SSN，格式为 XXX-XX-XXX  |  推理  |  字符串  | 
|  STATE  |  代表州的两个字母的代码  |  推理  |  字符串  | 
|  EXPIRATION\$1DATE  |   YYYY-MM-DD格式上的到期日期  |  推理  |  字符串  | 
|  DATE\$1OF\$1BIRTH  |  驱动程序的出生日期（ YYYY-MM-DD格式）  |  推理  |  字符串  | 
|  CHECK\$1DATE  |  已签署的检查日期。重新格式化为 YYYY-MM-DD  |  推理  |  字符串  | 
|  PurchaseDate  |  以mm/dd/yy格式显示的车辆购买日期  |  推理  |  字符串  | 

您还可以通过处理诸如“不适用”之类的方案，将值转换为标准计量单位或特定数据类型。


| 字段 | 说明 | 提取类型 | Type | 
| --- | --- | --- | --- | 
|  重量  |  将重量转换为磅  |  推理  |  数字  | 
|  高度  |  将高度转换为英寸  |  推理  |  数字  | 
|  nonqualified\$1plans\$1income  |  字段 11 的值。如果不适用，则为 0。  |  推理  |  数字  | 