本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用匹配的工作流程匹配输入数据
匹配工作流是一种数据处理作业,它合并和比较来自不同输入源的数据,并根据不同的匹配技术确定哪些记录匹配。AWS Entity Resolution 数据匹配服务从您指定的位置读取您的数据,查找记录之间的匹配项,并为每组匹配的数据分配一个匹配 ID。
下图总结了如何创建匹配的工作流程。
主题
匹配工作流程类型
AWS Entity Resolution 数据匹配服务支持三种类型的匹配工作流程:
- 基于规则的匹配
-
使用可配置的规则,根据指定字段的精确匹配或模糊匹配来识别匹配的记录。您可以定义匹配条件,例如拼写相似的匹配名称或格式不同的地址。
- 基于机器学习的匹配
-
使用机器学习模型识别相似的记录,即使数据存在差异、错误或缺失字段也是如此。这种方法可以检测比基于规则的匹配更复杂的匹配项。
- 基于提供商服务的匹配
-
在匹配之前,使用第三方数据提供商来丰富和验证您的数据。这种匹配类型与 Amazon Connect 客户档案输出不兼容。
数据输出选项
AWS Entity Resolution 数据匹配服务可以将数据输出文件写入:
-
您指定的 Amazon S3 地点
-
Amazon Connect 客户档案(用于客户重复数据删除)
重要
导出到 Amazon Connect 客户资料与基于提供商的匹配不兼容。要导出到 Amazon Connect 客户档案,您必须使用基于规则的匹配或基于机器学习的匹配。
如果需要AWS Entity Resolution 数据匹配服务,您可以使用对输出数据进行哈希处理,从而帮助您保持对数据的控制。
下表显示了三种类型的匹配工作流及其支持的输出目标。
匹配工作流程结果
创建并运行匹配的工作流程后,您可以在指定的 S3 位置或 Amazon Connect 客户档案中查看结果。对数据进行索引 IDs 后会生成匹配的工作流程。
匹配的工作流程可以有多次运行,结果(成功或错误)将写入名称jobId为的文件夹。
对于 S3 输出目标的每次运行:
-
数据输出既包含成功匹配的文件又包含错误文件
-
成功的结果将写入包含多个文件的文件
success夹 -
错误被写入包含多个字段
error的文件夹
每次运行 Amazon Connect 客户档案时,输出目的地:
-
经过重复数据删除的客户记录将直接发送到您的 Amazon Connect 实例
-
你可以在AWS Entity Resolution 数据匹配服务控制台中查看你最近的任务历史记录
-
重复数据删除流程中不包括 Amazon Connect 中的现有配置文件
创建并运行匹配工作流程后,您可以使用基于规则的匹配或机器学习 (ML) 匹配的输出作为基于提供商服务的匹配的输入,或者反过来满足您的业务需求。
例如,为了节省提供商订阅成本,您可以先运行基于规则的匹配来查找数据上的匹配项。然后,您可以将不匹配记录的子集发送给基于提供商服务的匹配。请注意,如果您计划导出到客户资料,则应仅使用基于规则或基于机器学习的匹配。
有关故障排除的更多信息,请参阅匹配工作流程疑难解答。