运行自定义 ID 映射工作流程 - AWS Entity Resolution 数据匹配服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

运行自定义 ID 映射工作流程

运行 ID 映射工作流程时,您可以为输出数据指定不同于最初配置的 Amazon S3 位置。您还可以通过选择以下三种运行类型之一来选择如何处理数据:B atch(处理所有数据)、增量(仅处理新的或更改的数据)或仅删除(仅处理删除请求)。

使用新的输出目标运行 ID 映射工作流
  1. 登录 AWS 管理控制台 并打开 AWS Entity Resolution 数据匹配服务 控制台,网址为https://console.aws.amazon.com/entityresolution/

  2. 在左侧导航窗格的 “工作流程” 下,选择 ID 映射

  3. 选择要运行的 ID 映射工作流程。

  4. 在 ID 映射工作流程详细信息页面上,选择运行工作流程,然后选择使用新的输出目标运行

  5. 对于数据输出目标,请配置以下内容。

    1. 对于 “运行类型”,选择以下选项之一。

      • Batch — 处理整个 ID 映射表。

        建议在初始设置、定期进行完全刷新或源和目标 ID 命名空间发生重大更改时使用。

      • 增量-仅处理源 ID 或目标 ID 命名空间中的新记录、已更新记录或已删除记录。

        建议用于频繁更新、每日运行或实时数据同步。

      • 仅删除-仅处理从 Target ID 命名空间中删除的记录。

        建议用于快速同步移除操作。

    2. 选择数据输出的 Amazon S3 位置

    3. 对于加密,请执行以下任一操作:

      • 保留默认加密设置

      • 选择 “自定义加密设置”,然后输入AWS KMS 密钥 ARN 或选择创建 AWS KMS 密钥。

  6. 要指定服务访问权限,请选择一个选项并采取建议的操作。

    选项 推荐操作
    创建并使用新的服务角色
    • AWS Entity Resolution 数据匹配服务 使用此表所需的策略创建服务角色。

    • 默认服务角色名称entityresolution-id-mapping-workflow-<timestamp>

    • 您必须拥有创建角色并附加策略的权限。

    • 如果您的输入数据已加密,请选择 “此数据由 KMS 密钥加密” 选项。然后,输入用于解密输入数据的密AWS KMS 钥

    使用现有服务角色
    1. 从下拉列表中选择一个现有服务角色名称

      如果您有列出角色的权限,则会显示角色列表。

      如果您没有列出角色的权限,可以输入要使用的角色的 Amazon 资源名称 (ARN)。

      如果没有现有的服务角色,则使用现有服务角色选项不可用。

    2. 通过选择在 IAM 中查看外部链接来查看服务角色。

      默认情况下, AWS Entity Resolution 数据匹配服务 不会尝试更新现有角色策略以添加必要的权限。

  7. 选择运行

  8. 在匹配的工作流程详细信息页面的指标选项卡上,在 “上次作业指标” 下查看以下内容:

    • Job ID

    • 工作流作业的完成时间

    • 匹配工作流作业的状态:已排队、进行已完成、失

    • 处理的记录

    • 未处理的记录

    • 输入记录的数量

    • IDs 生成的唯一匹配项的数量。

    • 新映射记录的数量。

    • 新映射的目标记录的数量。

    • 新映射的源记录的数量。

    • 删除的新映射源记录的数量。

    • 删除的新映射目标记录的数量。

    • 删除的新映射记录的数量。

    Job Hist ory 下,您还可以查看之前运行的 ID 映射工作流程作业的作业指标。

  9. 身份映射工作流程任务完成(状态为已完成)后,选择数据输出,然后选择您的 Amazon S3 位置以查看结果。

    获取 CSV 文件后,您可以通过RAMPID加入TRANSCODED_ID