

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 自定义实体识别
<a name="custom-entity-recognition"></a>

自定义实体识别可帮助您识别不在预设[通用实体类型](https://docs.aws.amazon.com/comprehend/latest/dg/how-entities.html)中的特定新实体类型，从而扩展了 Amazon Comprehend 的功能。这意味着您可以分析文档并提取符合您特定需求的实体，例如产品代码或业务特定实体。

自己构建精确的自定义实体识别器可能是一个复杂的过程，需要准备大量手动注释的训练文档，并选择正确的算法和参数进行模型训练。Amazon Comprehend 通过提供自动注释和模型开发来创建自定义实体识别模型，从而帮助降低复杂性。

与使用字符串匹配或正则表达式从文档中提取实体相比，创建自定义实体识别模型是一种更有效的方法。例如，要提取文档中的 ENGINEER 姓名，就很难枚举所有可能的名称。此外，如果没有上下文，很难区分 ENGINEER 姓名和 ANALYST 姓名。自定义实体识别模型可以了解这些名称可能出现的上下文。此外，字符串匹配不会检测到有错别字或遵循新命名约定的实体，而使用自定义模型可以做到这一点。

您可以通过两种方法来创建自定义模型：

1. 注释：提供包含带注释的实体的数据集，用于模型训练。

1. 实体列表（仅限纯文本）：提供实体列表及其类型标签（例如，`PRODUCT_CODES` 以及一组包含用于模型训练的这些实体的无注释文档）。

当您使用带注释的 PDF 文件创建自定义实体识别器时，您可以使用具有多种输入文件格式的识别器：纯文本、图像文件（JPG、PNG、TIFF）、PDF 文件和 Word 文档，无需预处理或拼合文档。Amazon Comprehend 不支持对图像文件或 Word 文档进行注释。

**注意**  
使用带注释的 PDF 文件的自定义实体识别器仅支持英文文档。

您一次最多可以在 25 个自定义实体上训练模型。有关更多详细信息，请参阅[指南和配额页面](https://docs.aws.amazon.com/comprehend/latest/dg/guidelines-and-limits.html)。

训练完模型后，您可以使用该模型进行实时实体检测和实体检测任务。

**Topics**
+ [准备实体识别器训练数据](prep-training-data-cer.md)
+ [训练自定义实体识别器模型](training-recognizers.md)
+ [运行实时自定义识别器分析](running-cer-sync.md)
+ [运行分析任务以识别自定义实体](detecting-cer.md)