本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建基于规则的匹配工作流程
基于规则的匹配是一组分层的瀑布匹配规则 AWS Entity Resolution 数据匹配服务,由您根据输入的数据推荐,并且完全可以由您配置。基于规则的匹配工作流程使您可以比较明文数据或哈希数据,以根据您自定义的条件找到精确的匹配项。
在您的数据中 AWS Entity Resolution 数据匹配服务 发现两条或多条记录之间存在匹配项时,它会分配:
创建基于规则的匹配工作流程
-
登录 AWS Management Console 并打开 AWS Entity Resolution 数据匹配服务 控制台,网址为https://console.aws.amazon.com/entityresolution/
。 -
在左侧导航窗格的 “工作流程” 下,选择 “匹配”。
-
在匹配工作流程页面的右上角,选择创建匹配工作流程。
-
对于 “步骤 1:指定匹配的工作流程详细信息”,请执行以下操作:
-
输入匹配的工作流程名称和可选的描述。
-
对于数据输入,请从下拉列表中选择一个AWS Glue 数据库,选择AWS Glue 表,然后选择相应的架构映射。
您最多可以添加 19 个数据输入。
-
默认情况下,“标准化数据” 选项处于选中状态,以便在匹配之前对数据输入进行标准化。如果您不想对数据进行标准化处理,请取消选择 “标准化数据” 选项。
注意
创建架构映射中仅支持以下场景的标准化:
-
如果将以下 “名称” 子类型分组:名字、中间名、姓氏。
-
如果将以下地址子类型分组:街道地址 1、街道地址 2、街道地址 3、城市、州、国家、邮政编码。
-
如果将以下电话子类型分组:电话号码、电话国家/地区代码。
-
-
要指定服务访问权限,请选择一个选项并采取建议的操作。
选项 推荐操作 创建并使用新的服务角色 -
AWS Entity Resolution 数据匹配服务 使用此表所需的策略创建服务角色。
-
默认服务角色名称为
entityresolution-matching-workflow-<timestamp>
。 -
您必须拥有创建角色并附加策略的权限。
-
如果您的输入数据已加密,请选择 “此数据由 KMS 密钥加密” 选项。然后,输入用于解密输入数据的密AWS KMS 钥。
使用现有服务角色 -
从下拉列表中选择一个现有服务角色名称。
如果您有列出角色的权限,则会显示角色列表。
如果您没有列出角色的权限,可以输入要使用的角色的 Amazon 资源名称 (ARN)。
如果没有现有的服务角色,则使用现有服务角色选项不可用。
-
通过选择在 IAM 中查看外部链接来查看服务角色。
默认情况下, AWS Entity Resolution 数据匹配服务 不会尝试更新现有角色策略以添加必要的权限。
-
-
(可选)要为资源启用标签,请选择添加新标签,然后输入密钥和值对。
-
选择下一步。
-
-
对于步骤 2:选择匹配技术:
-
在 “匹配方法” 中,选择 “基于规则的匹配”。
-
在 “处理节奏” 中,选择以下选项之一:
-
选择 “手动”,按需运行工作流以进行批量更新
-
选择 “自动” 以在 S3 存储桶中有新数据后立即运行工作流程
注意
如果您选择 “自动”,请确保您的 S3 存储桶已启用 Amazon EventBridge 通知。有关 EventBridge使用 S3 控制台启用亚马逊的说明,请参阅 Amazon S3 用户指南 EventBridge中的启用亚马逊。
-
-
(可选)如果您要在 ID 映射工作流中将匹配工作流用作源或目标,请选择 “仅限索引” 以进行 ID 映射。 AWS Entity Resolution 数据匹配服务 只会索引数据,而不会生成 IDs。
默认情况下,匹配的工作流程会在数据编制索引 IDs 后生成。
-
在匹配规则中,输入规则名称,然后为该规则选择匹配密钥。
您最多可以创建 15 个规则,并且可以在规则中应用最多 15 个不同的匹配密钥来定义匹配条件。
-
选择添加其他规则以根据需要创建其他规则。
-
对于 “比较类型”,选择以下选项之一:
-
选择 “多个输入字段” 可查找存储在多个输入字段中的数据的任意匹配组合。
-
选择 “单个输入字段” 可将比较限制为单个输入字段。
-
-
选择下一步。
-
-
对于步骤 3:指定数据输出和格式:
-
对于数据输出目标和格式,选择数据输出的 Amazon S3 位置,以及数据格式是标准化数据还是原始数据。
-
对于加密,如果您选择自定义加密设置,请输入AWS KMS 密钥 ARN。
-
查看系统生成的输出。
-
对于数据输出,决定要包含、隐藏或掩盖哪些字段,然后选择以下选项之一:
-
将输出状态保持为 “已包含” 以包含字段。
-
选择 “输出” 字段,然后选择 “隐藏” 以隐藏字段(从输出中排除)
-
选择输出字段,然后选择哈希输出以掩盖字段。
-
选择 “重置” 可重置之前的设置。
-
-
选择下一步。
-
-
对于步骤 4:查看并创建:
-
查看您在之前的步骤中所做的选择,并在必要时进行编辑。
-
选择创建并运行。
将出现一条消息,表示匹配的工作流程已创建且作业已启动。
-
-
在匹配的工作流程详细信息页面的指标选项卡上,在 “上次作业指标” 下查看以下内容:
-
Job ID。
-
匹配工作流作业的状态:已排队、进行中、已完成、失败
-
工作流作业的完成时间。
-
已处理的记录数。
-
未处理的记录数。
-
IDs 生成的唯一匹配项。
-
输入记录的数量。
您还可以查看任务历史记录下先前运行过的匹配工作流程作业的作业指标。
-
-
匹配的工作流程任务完成(状态为已完成)后,您可以转到数据输出选项卡,然后选择您的 Amazon S3 位置以查看结果。
-
(仅限手动处理类型)如果您创建了手动处理类型的基于规则的匹配工作流,则可以在匹配的工作流详细信息页面上选择 “运行工作流”,随时运行匹配工作流。