使用匹配的工作流程匹配输入数据 - AWS Entity Resolution 数据匹配服务

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用匹配的工作流程匹配输入数据

匹配工作流是一种数据处理作业,它合并和比较来自不同输入源的数据,并根据不同的匹配技术确定哪些记录匹配。AWS Entity Resolution 数据匹配服务从您指定的位置读取您的数据,查找记录之间的匹配项,并为每组匹配的数据分配一个匹配 ID

下图总结了如何创建匹配的工作流程。

A summary of the four steps to create a matching workflow in AWS Entity Resolution 数据匹配服务

匹配工作流程类型

AWS Entity Resolution 数据匹配服务支持三种类型的匹配工作流程:

基于规则的匹配

使用可配置的规则,根据指定字段的精确匹配或模糊匹配来识别匹配的记录。您可以定义匹配条件,例如拼写相似的匹配名称或格式不同的地址。

基于机器学习的匹配

使用机器学习模型识别相似的记录,即使数据存在差异、错误或缺失字段也是如此。这种方法可以检测比基于规则的匹配更复杂的匹配项。

基于提供商服务的匹配

在匹配之前,使用第三方数据提供商来丰富和验证您的数据。这种匹配类型与 Amazon Connect 客户档案输出不兼容。

数据输出选项

AWS Entity Resolution 数据匹配服务可以将数据输出文件写入:

  • 您指定的 Amazon S3 地点

  • Amazon Connect 客户档案(用于客户重复数据删除)

重要

导出到 Amazon Connect 客户资料与基于提供商的匹配不兼容。要导出到 Amazon Connect 客户档案,您必须使用基于规则的匹配或基于机器学习的匹配。

如果需要AWS Entity Resolution 数据匹配服务,您可以使用对输出数据进行哈希处理,从而帮助您保持对数据的控制。

下表显示了三种类型的匹配工作流及其支持的输出目标。

匹配类型 S3 输出 客户档案输出
基于规则
基于机器学习
基于提供商的服务

匹配工作流程结果

创建并运行匹配的工作流程后,您可以在指定的 S3 位置或 Amazon Connect 客户档案中查看结果。对数据进行索引 IDs 后会生成匹配的工作流程。

匹配的工作流程可以有多次运行,结果(成功或错误)将写入名称jobId为的文件夹。

对于 S3 输出目标的每次运行:

  • 数据输出既包含成功匹配的文件又包含错误文件

  • 成功的结果将写入包含多个文件的文件success

  • 错误被写入包含多个字段error的文件夹

每次运行 Amazon Connect 客户档案时,输出目的地:

  • 经过重复数据删除的客户记录将直接发送到您的 Amazon Connect 实例

  • 你可以在AWS Entity Resolution 数据匹配服务控制台中查看你最近的任务历史记录

  • 重复数据删除流程中不包括 Amazon Connect 中的现有配置文件

创建并运行匹配工作流程后,您可以使用基于规则的匹配或机器学习 (ML) 匹配的输出作为基于提供商服务的匹配的输入,或者反过来满足您的业务需求。

例如,为了节省提供商订阅成本,您可以先运行基于规则的匹配来查找数据上的匹配项。然后,您可以将不匹配记录的子集发送给基于提供商服务的匹配。请注意,如果您计划导出到客户资料,则应仅使用基于规则或基于机器学习的匹配。

有关故障排除的更多信息,请参阅匹配工作流程疑难解答