使用匹配流程匹配输入数据

匹配工作流是一种数据处理作业，它合并和比较来自不同输入源的数据，并根据不同的匹配技术确定哪些记录匹配。 AWS Entity Resolution 数据匹配服务从您指定的位置读取您的数据，查找记录之间的匹配项，并为每组匹配的数据分配一个匹配 ID。

下图总结了如何创建匹配的工作流程。

A summary of the four steps to create a matching workflow in AWS Entity Resolution 数据匹配服务

匹配工作流程类型

AWS Entity Resolution 数据匹配服务支持三种类型的匹配工作流程：

Rule-based 匹配: 使用可配置的规则，根据指定字段的精确匹配或模糊匹配来识别匹配的记录。您可以定义匹配条件，例如拼写相似的匹配名称或格式不同的地址。
基于机器学习的匹配: 使用机器学习模型识别相似的记录，即使数据存在差异、错误或缺失字段也是如此。这种方法可以检测比基于规则的匹配更复杂的匹配项。
基于提供商服务的匹配: 在匹配之前，使用第三方数据提供商来丰富和验证您的数据。这种匹配类型与 Connect 客户档案输出不兼容。

AWS Entity Resolution 数据匹配服务可以将数据输出文件写入:

导出到 Connect 客户档案与基于提供商的匹配不兼容。要导出到 Connect 客户档案，必须使用基于规则的匹配或基于机器学习的匹配。

如果需要 AWS Entity Resolution 数据匹配服务，您可以使用对输出数据进行哈希处理，从而帮助您保持对数据的控制。

下表显示了三种类型的匹配工作流及其支持的输出目标。

创建并运行匹配的工作流程后，您可以在指定的 S3 位置或 Connect 客户档案中查看结果。匹配的工作流程会在数据编制索引后生成 ID。

匹配的工作流程可以有多次运行，结果（成功或错误）将写入名称jobId为的文件夹。

对于 S3 输出目标的每次运行：

每次运行 Connect 客户档案时，输出目的地：

创建并运行匹配工作流程后，您可以使用基于规则的匹配或机器学习 (ML) 匹配的输出作为基于提供商服务的匹配的输入，或者反过来满足您的业务需求。

例如，为了节省提供商订阅成本，您可以先运行基于规则的匹配来查找数据上的匹配项。然后，您可以将不匹配记录的子集发送给基于提供商服务的匹配。请注意，如果您计划导出到客户档案，则应仅使用基于规则或基于机器学习的匹配。

有关故障排除的更多信息，请参阅匹配工作流程疑难解答。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

添加或更新 ID 命名空间的资源策略

创建基于规则的匹配工作流程