

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 训练自定义识别器（控制台）
<a name="realtime-analysis-cer"></a>

您可以使用 Amazon Comprehend 控制台创建自定义实体识别器。本节说明了如何创建和训练自定义实体识别器。

**Topics**

## 使用控制台创建自定义实体识别器 - CSV 格式
<a name="console-CER"></a>

要创建自定义实体识别器，请先提供一个用于训练模型的数据集。该数据集包括以下内容之一：一组带注释的文档或一组实体及其类型标签的列表，以及一组包含这些实体的文档。有关更多信息，请参阅 [自定义实体识别](custom-entity-recognition.md)。

**使用 CSV 文件训练自定义实体识别器**

1. 登录 AWS 管理控制台 并打开亚马逊 Comprehend 控制台，网址为 [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. 从左侧菜单中选择**自定义**，然后选择**自定义实体识别**。

1. 选择**创建新模型**。

1. 为识别器命名。该名称在区域和账户中必须是唯一的。

1. 选择语言。

1. 在**自定义实体类型**下，输入您希望识别器在数据集中找到的自定义标签。

   实体类型必须大写，如果由多个单词组成，则用下划线分隔单词。

1. 选择**添加类型**。

1. 如果要添加其他实体类型，请输入该类型，然后选择**添加类型**。如果要删除已添加的实体类型，请选择**删除类型**，然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。

1. 要对训练任务加密，请选择**识别器加密**，然后选择是使用与当前账户关联的 KMS 密钥，还是使用来自其他账户的 KMS 密钥。
   + 如果您使用的是与当前账户关联的密钥，请为 **KMS 密钥 ID** 选择密钥 ID。
   + 如果您使用与其他账户关联的密钥，请在 **KMS 密钥 ARN** 中输入密钥 ID 的 ARN。
**注意**  
有关创建和使用 KMS 密钥以及相关加密的更多信息，请参阅 [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)。

1. 在**数据规范**下，选择训练文档的格式：
   + **CSV 文件**：补充您的训练文档的 CSV 文件。CSV 文件包含有关您的训练模型将检测到的自定义实体的信息。所需的文件格式取决于您提供的是注释还是实体列表。
   + **增强清单** — 由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。每一行都是一个完整的 JSON 对象，其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。

   有关可用格式的更多信息以及示例，请参阅 [训练自定义实体识别器模型](training-recognizers.md)。

1. 在**训练类型**下，选择要使用的训练类型：
   + **使用注释与训练文档**
   + **使用实体列表与训练文档**

    如果选择注释，请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹，然后选择**浏览 S3**。

    如果选择实体列表，请在 Amazon S3 中输入实体列表的 URL。您也可以导航到 Amazon S3 中实体列表所在的存储桶或文件夹，然后选择**浏览 S3**。

1. 在 Amazon S3 中输入包含训练文档的输入数据集的网址。您也可以导航到 Amazon S3 中训练文档所在的存储桶或文件夹，然后选择**选择文件夹**。

1. 在**测试数据集**下，选择您想要如何评估训练模型的性能-您可以对注释和实体列表训练类型执行此操作。
   + **自动分割**：自动分割会自动选择您提供的训练数据的 10% 用作测试数据 
   + （可选）**客户提供**：当您选择客户提供的时，您可以准确指定要使用的测试数据。

1. 如果您选择客户提供的测试数据集，请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹，然后选择**选择文件夹**。

1. 在**选择 IAM 角色**部分中，选择一个现有 IAM 角色，或者创建一个新的 IAM 角色。
   + **选择现有 IAM 角色**：如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色，请选择此选项。
   + **创建新的 IAM 角色**：如果您要创建一个新的 IAM 角色，该角色具有适当的权限，让 Amazon Comprehend 可以访问输入和输出存储桶，请选择此选项。
**注意**  
如果输入文档已加密，则所使用的 IAM 角色必须具有 `kms:Decrypt` 权限。有关更多信息，请参阅 [使用 KMS 加密所需的权限](security_iam_id-based-policy-examples.md#auth-kms-permissions)。

1. （可选）要将您的资源从 VPC 启动到 Amazon Comprehend，请在 **VPC** 下输入 VPC ID 或从下拉列表中选择 ID。

   1. 在**子网**下选择子网。选择第一个子网后，您还可以选择其他子网。

   1. 在**安全组**下，选择要使用的安全组（如果已指定）。选择第一个安全组后，您还可以选择其他安全组。
**注意**  
当您在自定义实体识别任务中使用 VPC 时，`DataAccessRole` 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。

1. （可选）若要向自定义实体识别器添加标签，请在**标签**下输入键值对。选择**添加标签**。要在创建识别器之前删除这对，请选择**删除标签**。

1. 选择**训练**。

然后，新的识别器将出现在列表中，显示其状态。它将首先显示为 `Submitted`。然后，它将显示 `Training` 正在处理训练文档的分类器、`Trained` 准备就绪的分类器以及存在 `In error` 错误的分类器。您可以单击任务以获取有关识别器的更多信息，包括任何错误消息。

## 使用控制台创建自定义实体识别器-增强清单
<a name="getting-started-CER-PDF"></a>

**使用纯文本、PDF 或 Word 文档训练自定义实体识别器**

1. 登录 AWS 管理控制台 并打开 [Amazon Comprehend 控制台](https://console.aws.amazon.com/comprehend/home?region=us-east-1#api-explorer:)。

1. 从左侧菜单中选择**自定义**，然后选择**自定义实体识别**。

1. 选择**训练识别器**。

1. 为识别器命名。该名称在区域和账户中必须是唯一的。

1. 选择语言。注意：如果您正在训练 PDF 或 Word 文档，则支持的语言为英语。

1. 在**自定义实体类型**下，输入您希望识别器在数据集中找到的自定义标签。

   实体类型必须大写，如果由多个单词组成，则用下划线分隔单词。

1. 选择**添加类型**。

1. 如果要添加其他实体类型，请输入该类型，然后选择**添加类型**。如果要删除已添加的实体类型，请选择**删除类型**，然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。

1. 要对训练任务加密，请选择**识别器加密**，然后选择是使用与当前账户关联的 KMS 密钥，还是使用来自其他账户的 KMS 密钥。
   + 如果您使用的是与当前账户关联的密钥，请为 **KMS 密钥 ID** 选择密钥 ID。
   + 如果您使用与其他账户关联的密钥，请在 **KMS 密钥 ARN** 中输入密钥 ID 的 ARN。
**注意**  
有关创建和使用 KMS 密钥以及相关加密的更多信息，请参阅 [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)。

1. 在**训练数据**下，选择**增强清单**作为数据格式：
   + **增强清单** — 是由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。文件中的每一行都是一个完整的 JSON 对象，其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。如果您使用 PDF 文档作为训练数据，则必须选择**增强清单**。您最多可以提供 5 个增强的清单文件。每个文件最多可命名 5 个属性作为训练数据。

   有关可用格式的更多信息以及示例，请参阅 [训练自定义实体识别器模型](training-recognizers.md)。

1. 选择训练模型类型。

   如果您选择了**纯文本文档**，请在 “**输入位置” 下输入** Amazon Tr SageMaker AIGround uth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹，然后选择**选择文件夹**。

1. 在**属性名称**下，输入包含注释的属性的名称。如果文件包含来自多个链式标注任务的注释，请为每个任务添加一个属性。在这种情况下，每个属性都包含标注任务中的一组注释。注意：您最多可以为每个文件提供 5 个属性名称。

1. 选择**添加**。

1. 如果你在 “**输入位置” 下选择了 **PDF、Word 文档**，请输入** Amazon A SageMaker I Ground Truth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹，然后选择**选择文件夹**。

1. 输入**注释**数据文件的 S3 前缀。这些是您标记的 PDF 文档。

1. 输入**源**文档的 S3 前缀。这些是您提供给 Ground Truth 进行标注任务的原始 PDF 文档（数据对象）。

   

1. 输入包含注释的属性名称。注意：您最多可以为每个文件提供 5 个属性名称。文件中任何您未指定的属性都将被忽略。

1. 在 IAM 角色部分，选择一个现有 IAM 角色，或者创建一个新的 IAM 角色。
   + **选择现有 IAM 角色**：如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色，请选择此选项。
   + **创建新的 IAM 角色**：如果您要创建一个新的 IAM 角色，该角色具有适当的权限，让 Amazon Comprehend 可以访问输入和输出存储桶，请选择此选项。
**注意**  
如果输入文档已加密，则所使用的 IAM 角色必须具有 `kms:Decrypt` 权限。有关更多信息，请参阅 [使用 KMS 加密所需的权限](security_iam_id-based-policy-examples.md#auth-kms-permissions)。

1. （可选）要将您的资源从 VPC 启动到 Amazon Comprehend，请在 **VPC** 下输入 VPC ID 或从下拉列表中选择 ID。

   1. 在**子网**下选择子网。选择第一个子网后，您还可以选择其他子网。

   1. 在**安全组**下，选择要使用的安全组（如果已指定）。选择第一个安全组后，您还可以选择其他安全组。
**注意**  
当您在自定义实体识别任务中使用 VPC 时，`DataAccessRole` 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。

1. （可选）若要向自定义实体识别器添加标签，请在**标签**下输入键值对。选择**添加标签**。要在创建识别器之前删除这对，请选择**删除标签**。

1. 选择**训练**。

然后，新的识别器将出现在列表中，显示其状态。它将首先显示为 `Submitted`。然后，它将显示 `Training` 正在处理训练文档的分类器、`Trained` 准备就绪的分类器以及存在 `In error` 错误的分类器。您可以单击任务以获取有关识别器的更多信息，包括任何错误消息。