

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建基于机器学习的匹配工作流程
<a name="create-matching-workflow-ml"></a>

*[基于机器学习的匹配](glossary.md#ml-matching-defn)*是一个预设过程，它会尝试匹配您输入的所有数据的记录。基于机器学习的匹配工作流程使您能够使用机器学习模型比较明文数据以找到广泛的匹配项。

**注意**  
机器学习模型不支持哈希数据的比较。

在您的数据中 AWS Entity Resolution 数据匹配服务 发现两条或多条记录之间存在匹配项时，它会分配：
+ 与[匹配数据集中的记录的匹配 ID](glossary.md#match-id-defin)
+ 匹配置[信度](glossary.md#confidence-level-defn)百分比。

您可以使用基于 ML 的匹配工作流程的输出作为数据服务提供商匹配的输入，反之亦然，以实现您的特定目标。例如，您可以运行基于 ML 的匹配，先在自己的记录中查找数据源的匹配项。如果子集未匹配，则可以运行[基于提供商服务的匹配](create-matching-workflow-provider.md)来查找其他匹配项。

**先决条件**

在创建基于 ML 的匹配工作流程之前，您必须：

1. 创建架构映射。有关更多信息，请参阅 [创建架构映射](create-schema-mapping.md)。

1. 如果使用 Amazon Connect 客户档案作为输出目标，请确保配置了相应的权限。

**要创建基于 ML 的匹配工作流程，请执行以下操作：**

1. 登录 AWS 管理控制台 并打开 AWS Entity Resolution 数据匹配服务 控制台，网址为[https://console.aws.amazon.com/entityresolution/](https://console.aws.amazon.com/entityresolution/)。

1. 在左侧导航窗格的 “**工作流程**” 下，选择 “**匹配**”。

1. 在**匹配工作流程**页面的右上角，选择**创建匹配工作流程**。

1. 对于 “**步骤 1：指定匹配的工作流程详细信息**”，请执行以下操作：

   1. 输入**匹配的工作流程名称**和可选的**描述**。

   1. 对于**数据输入 **AWS 区域****，选择**AWS Glue 数据库**、**AWS Glue 表**，然后选择相应的**架构映射**。

      您最多可以添加 20 个数据输入。

   1. 默认情况下，“**标准化数据**” 选项处于选中状态，以便在匹配之前对数据输入进行标准化。如果您不想对数据进行标准化处理，请取消选择 “**标准化**数据” 选项。

      基于机器学习的匹配仅对[Name](glossary.md#normalization-ML-defn-name)、[Phone](glossary.md#normalization-ML-defn-phone)和进行标准化。[电子邮件](glossary.md#normalization-ML-defn-email)

   1. 要指定**服务访问**权限，请选择一个选项并采取建议的操作。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/create-matching-workflow-ml.html)

   1. （可选）要为资源启用**标签**，请选择**添加新标签**，然后输入**密钥**和**值**对。

   1. 选择**下一步**。

1. 对于**步骤 2：选择匹配技术**：

   1. 对于**匹配方法**，选择**基于机器学习的**匹配。  
![\[AWS Entity Resolution 数据匹配服务 将工作流程创建界面与基于规则的匹配或机器学习匹配选项相匹配。\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/images/choose-matching-method-machine-learning.PNG)

   1. 对于**处理节奏**，选择了 “**手动**” 选项。

      此选项允许您按需运行工作流程以进行批量更新。
**注意**  
基于机器学习的匹配工作流程不支持自动（增量）处理。

   1. 选择**下一步**。

1. 对于**步骤 3：指定数据输出和格式**：

   1. 对于**数据输出目标和格式**，选择数据输出的 **Amazon S3 位置**，以及**数据格式**是**标准化数据**还是**原始数据**。

   1. 对于**加密**，如果您选择**自定义加密设置**，请输入**AWS KMS 密钥** ARN。

   1. 查看**系统生成的输出**。

   1. 对于**数据输出**，请决定要包含、隐藏或掩盖哪些字段，然后根据目标采取建议的操作。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/create-matching-workflow-ml.html)

   1. 选择**下一步**。

1. 对于**步骤 4：查看并创建**：

   1. 查看您在之前的步骤中所做的选择，并在必要时进行编辑。

   1. 选择**创建并运行**。

      将出现一条消息，表示匹配的工作流程已创建且作业已启动。

1. 在匹配的工作流程详细信息页面的**指标**选项卡上，在 “**上次作业指标**” 下查看以下内容：
   + 作**业 ID**。
   + **匹配工作流作业的**状态**：已**排队**、进行**中**、**已完成、失**败** 
   + 工作流作业的**完成时间**。
   + 已**处理的记录**数。
   + **未处理的记录**数。
   + ** IDs 生成的唯一匹配项**。
   + **输入记录**的数量。

   您还可以查看任务**历史记录下先前运行过的匹配工作流程作业的作业**指标。

1. 匹配的工作流程任务完成（**状态**为**已完成**）后，您可以转到**数据输出**选项卡，然后选择您的 **Amazon S3 位置**以查看结果。

1. （仅限**手动**处理类型）如果您创建了**手动**处理类型的**基于机器学习的匹配**工作流，则可以在匹配工作流详细信息页面上选择 “运行工作**流”，随时运行**匹配工作流。