创建标准化蓝图 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建标准化蓝图

BDA 提供标准化功能,支持根据特定要求对提取的数据进行转换和标准化。这些标准化任务可以分为键标准化和值标准化。

键标准化

在许多情况下,文档字段的表示或标注方式可能有所不同。例如,“社会保险号码”字段可能显示为“SSN”、“税号”、“TIN”或其他类似变体。为了解决这个难题,BDA 提供了键标准化,便于为字段定义中的变体提供指令。

利用键标准化,您可以指导 BDA 识别同一字段的不同表示形式,并将其映射到标准化键。此功能可确保无论源文档中存在何种数据变体,都能一致地提取和组织数据。

字段 说明 提取类型 Type

LastName

用户的姓氏

显式

字符串

BirthNum

出生证的证件号或文件号

显式

字符串

OtherIncome

其他收入,包括联邦和州的汽油或燃油税抵免或退款

显式

数字

BusinessName

填写 W9 的企业、承包商或实体的名称

显式

字符串

功率因数

用于此使用量行项目的功率因数或乘数

显式

字符串

BirthPlace

孩子出生的医院或机构的名称

显式

字符串

受伤原因

受伤或职业病的原因,包括与工作的关系

显式

字符串

对于包含预定义值集或枚举的字段,可以在字段指令中提供预期值或范围。建议用引号括住变体,如示例所示。

字段 说明 提取类型 Type

LICENSE_CLASS

单字母类别代码,“A”、“B”或“C”之一

显式

字符串

性别

性别。“M”或“F”之一

显式

字符串

InformantType

信息的类型。“父母”或“其他”之一

显式

字符串

信息收集渠道

以下项之一:“面对面采访”、“电话采访”、“传真或邮件”、“电子邮件或互联网”

显式

字符串

值标准化

值标准化是数据处理管道中的一项关键任务,需要将提取的数据转换为一致的标准化格式。此过程可确保下游系统可以无缝使用和处理数据,不会遇到兼容性问题或歧义。

使用 BDA 中的标准化功能,可以标准化格式、转换度量单位以及将值转换为特定的数据类型。

对于值标准化任务,应使用“推断”提取类型,因为经过标准化后,该值可能与文档的原始文本或 OCR 不完全匹配。例如,像“06/25/2022”这样需要格式化为“YYYY-MM-DD”格式的日期值在标准化后的提取值为“2022-06-25”,因此与文档的 OCR 输出不匹配。

标准化格式:可以将值转换为预定义格式,例如缩短代码、编号方案或特定的日期格式。这样就可以通过遵守行业标准或组织惯例来确保数据表示的一致性。

字段 说明 提取类型 Type

SSN

SSN,格式为 XXX-XX-XXX

推理

字符串

STATE

代表州的两个字母的代码

推理

字符串

EXPIRATION_DATE

YYYY-MM-DD格式上的到期日期

推理

字符串

DATE_OF_BIRTH

驱动程序的出生日期( YYYY-MM-DD格式)

推理

字符串

CHECK_DATE

已签署的检查日期。重新格式化为 YYYY-MM-DD

推理

字符串

PurchaseDate

以mm/dd/yy格式显示的车辆购买日期

推理

字符串

您还可以通过处理诸如“不适用”之类的方案,将值转换为标准计量单位或特定数据类型。

字段 说明 提取类型 Type

重量

将重量转换为磅

推理

数字

高度

将高度转换为英寸

推理

数字

nonqualified_plans_income

字段 11 的值。如果不适用,则为 0。

推理

数字