本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建标准化蓝图
BDA 提供标准化功能,支持根据特定要求对提取的数据进行转换和标准化。这些标准化任务可以分为键标准化和值标准化。
键标准化
在许多情况下,文档字段的表示或标注方式可能有所不同。例如,“社会保险号码”字段可能显示为“SSN”、“税号”、“TIN”或其他类似变体。为了解决这个难题,BDA 提供了键标准化,便于为字段定义中的变体提供指令。
利用键标准化,您可以指导 BDA 识别同一字段的不同表示形式,并将其映射到标准化键。此功能可确保无论源文档中存在何种数据变体,都能一致地提取和组织数据。
| 字段 | 说明 | 提取类型 | Type |
|---|---|---|---|
|
LastName |
用户的姓氏 |
显式 |
字符串 |
|
BirthNum |
出生证的证件号或文件号 |
显式 |
字符串 |
|
OtherIncome |
其他收入,包括联邦和州的汽油或燃油税抵免或退款 |
显式 |
数字 |
|
BusinessName |
填写 W9 的企业、承包商或实体的名称 |
显式 |
字符串 |
|
功率因数 |
用于此使用量行项目的功率因数或乘数 |
显式 |
字符串 |
|
BirthPlace |
孩子出生的医院或机构的名称 |
显式 |
字符串 |
|
受伤原因 |
受伤或职业病的原因,包括与工作的关系 |
显式 |
字符串 |
对于包含预定义值集或枚举的字段,可以在字段指令中提供预期值或范围。建议用引号括住变体,如示例所示。
| 字段 | 说明 | 提取类型 | Type |
|---|---|---|---|
|
LICENSE_CLASS |
单字母类别代码,“A”、“B”或“C”之一 |
显式 |
字符串 |
|
性别 |
性别。“M”或“F”之一 |
显式 |
字符串 |
|
InformantType |
信息的类型。“父母”或“其他”之一 |
显式 |
字符串 |
|
信息收集渠道 |
以下项之一:“面对面采访”、“电话采访”、“传真或邮件”、“电子邮件或互联网” |
显式 |
字符串 |
值标准化
值标准化是数据处理管道中的一项关键任务,需要将提取的数据转换为一致的标准化格式。此过程可确保下游系统可以无缝使用和处理数据,不会遇到兼容性问题或歧义。
使用 BDA 中的标准化功能,可以标准化格式、转换度量单位以及将值转换为特定的数据类型。
对于值标准化任务,应使用“推断”提取类型,因为经过标准化后,该值可能与文档的原始文本或 OCR 不完全匹配。例如,像“06/25/2022”这样需要格式化为“YYYY-MM-DD”格式的日期值在标准化后的提取值为“2022-06-25”,因此与文档的 OCR 输出不匹配。
标准化格式:可以将值转换为预定义格式,例如缩短代码、编号方案或特定的日期格式。这样就可以通过遵守行业标准或组织惯例来确保数据表示的一致性。
| 字段 | 说明 | 提取类型 | Type |
|---|---|---|---|
|
SSN |
SSN,格式为 XXX-XX-XXX |
推理 |
字符串 |
|
STATE |
代表州的两个字母的代码 |
推理 |
字符串 |
|
EXPIRATION_DATE |
YYYY-MM-DD格式上的到期日期 |
推理 |
字符串 |
|
DATE_OF_BIRTH |
驱动程序的出生日期( YYYY-MM-DD格式) |
推理 |
字符串 |
|
CHECK_DATE |
已签署的检查日期。重新格式化为 YYYY-MM-DD |
推理 |
字符串 |
|
PurchaseDate |
以mm/dd/yy格式显示的车辆购买日期 |
推理 |
字符串 |
您还可以通过处理诸如“不适用”之类的方案,将值转换为标准计量单位或特定数据类型。
| 字段 | 说明 | 提取类型 | Type |
|---|---|---|---|
|
重量 |
将重量转换为磅 |
推理 |
数字 |
|
高度 |
将高度转换为英寸 |
推理 |
数字 |
|
nonqualified_plans_income |
字段 11 的值。如果不适用,则为 0。 |
推理 |
数字 |