创建基于规则的匹配工作流程 - AWS Entity Resolution 数据匹配服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建基于规则的匹配工作流程

基于规则的匹配是一组分层的瀑布匹配规则 AWS Entity Resolution 数据匹配服务,由您根据输入的数据建议,并且完全可以由您配置。基于规则的匹配工作流程使您可以比较明文数据或哈希数据,以根据您自定义的条件找到精确的匹配项。

在您的数据中 AWS Entity Resolution 数据匹配服务 发现两条或多条记录之间存在匹配项时,它会分配:

创建基于规则的匹配工作流程
  1. 登录 AWS Management Console 并使用您的AWS Entity Resolution 数据匹配服务 主机打开主机 AWS 账户 (如果您尚未这样做)。

  2. 在左侧导航窗格的 “工作流程” 下,选择 “匹配”。

  3. 匹配工作流程页面的右上角,选择创建匹配工作流程

  4. 对于 “步骤 1:指定匹配的工作流程详细信息”,请执行以下操作:

    1. 输入匹配的工作流程名称和可选的描述

    2. 对于数据输入,请从下拉列表中选择一个AWS Glue 数据库,选择AWS Glue 表,然后选择相应的架构映射

      您最多可以添加 19 个数据输入。

    3. 默认情况下,“标准化数据” 选项处于选中状态,以便在匹配之前对数据输入进行标准化。如果您不想对数据进行标准化处理,请取消选择 “标准化数据” 选项。

      注意

      创建架构映射中仅支持以下场景的标准化:

      • 如果将以下 “名称” 子类型分组:名字中间名、姓

      • 如果将以下地址子类型分组:街道地址 1街道地址 2街道地址 3城市国家邮政编码

      • 如果将以下电话子类型分组:电话号码电话国家/地区代码

    4. 要指定服务访问权限,请选择一个选项并采取建议的操作。

      选项 推荐操作
      创建并使用新的服务角色
      • AWS Entity Resolution 数据匹配服务 使用此表所需的策略创建服务角色。

      • 默认服务角色名称entityresolution-matching-workflow-<timestamp>

      • 您必须拥有创建角色并附加策略的权限。

      • 如果您的输入数据已加密,请选择 “此数据由 KMS 密钥加密” 选项。然后,输入用于解密输入数据的密AWS KMS 钥

      使用现有服务角色
      1. 从下拉列表中选择一个现有服务角色名称

        如果您有列出角色的权限,则会显示角色列表。

        如果您没有列出角色的权限,可以输入要使用的角色的 Amazon 资源名称 (ARN)。

        如果没有现有的服务角色,则使用现有服务角色选项不可用。

      2. 通过选择在 IAM 中查看外部链接来查看服务角色。

        默认情况下, AWS Entity Resolution 数据匹配服务 不会尝试更新现有角色策略以添加必要的权限。

    5. (可选)要为资源启用标签,请选择添加新标签,然后输入密钥对。

    6. 选择下一步

  5. 对于步骤 2:选择匹配技术

    1. 在 “匹配方法” 中,选择 “基于规则的匹配”。

      选择带有基于规则和机器学习选项的匹配技巧屏幕。
    2. 对于处理节奏,请根据您的目标选择以下选项之一。

      您的目标 建议的选项
      按需运行工作流程以进行批量更新 手动
      S3 存储桶中有新数据后立即运行工作流程 自动
      注意

      如果您选择 “自动”,请确保您的 S3 存储桶已启用 Amazon EventBridge 通知。有关 EventBridge使用 S3 控制台启用亚马逊的说明,请参阅 Amazon S3 用户指南 EventBridge中的启用亚马逊

    3. (可选)对于仅适用于 ID 映射的索引,您可以选择启用仅索引数据而不生成数据的功能 IDs。

      默认情况下,匹配的工作流程会在数据编制索引 IDs 后生成。

    4. 匹配规则中,输入规则名称,然后为该规则选择匹配密钥

      您最多可以创建 15 个规则,并且可以在规则中应用最多 15 个不同的匹配密钥来定义匹配条件。

      匹配规则界面包含用于输入规则名称和选择匹配密钥的字段。
    5. 对于 “比较类型”,请根据您的目标选择以下选项之一。

      您的目标 建议的选项
      在存储在多个输入字段中的数据中查找任意匹配项组合 多个输入字段
      将比较限制为单个输入字段 单一输入字段
      比较类型选项:多个输入字段用于查找存储在多个字段中的数据的匹配项,或者使用单个输入字段来限制在一个字段内进行比较。
    6. 选择下一步

  6. 对于步骤 3:指定数据输出和格式

    1. 对于数据输出目标和格式,选择数据输出的 Amazon S3 位置,以及数据格式标准化数据还是原始数据

    2. 对于加密,如果您选择自定义加密设置,请输入AWS KMS 密钥 ARN。

    3. 查看系统生成的输出

    4. 对于数据输出,请决定要包含、隐藏或掩盖哪些字段,然后根据目标采取建议的操作。

      您的目标 建议的选项
      包括字段 将输出状态保持为 “已包含”。
      隐藏字段(从输出中排除) 选择 “输出” 字段,然后选择 “隐藏”。
      掩码字段 选择 “输出” 字段,然后选择 “哈希输出”。
      重置之前的设置 选择 重置
    5. 选择下一步

  7. 对于步骤 4:查看并创建

    1. 查看您在之前的步骤中所做的选择,并在必要时进行编辑。

    2. 选择创建并运行

      将出现一条消息,表示匹配的工作流程已创建且作业已启动。

  8. 在匹配的工作流程详细信息页面的指标选项卡上,在 “上次作业指标” 下查看以下内容:

    • Job ID

    • 匹配工作流作业的状态:已排队、进行已完成、失

    • 工作流作业的完成时间

    • 处理的记录数。

    • 未处理的记录数。

    • IDs 生成的唯一匹配项

    • 输入记录的数量。

    您还可以查看任务历史记录下先前运行过的匹配工作流程作业的作业指标。

  9. 匹配的工作流程任务完成(状态已完成)后,您可以转到数据输出选项卡,然后选择您的 Amazon S3 位置以查看结果。

  10. (仅限手动处理类型)如果您创建了手动处理类型的基于规则的匹配工作流,则可以在匹配的工作流详细信息页面上选择 “运行工作流”,随时运行匹配工作流