

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 多类模式
<a name="prep-classifier-data-multi-class"></a>

在多类模式下，分类为每个文档分配一个类别。各个类别是互斥的。例如，您可以将一部电影归类为喜剧或科幻小说，但不能两者兼有。

**注意**  
Amazon Comprehend 控制台将多类模式称为单标签模式。

**Topics**
+ [纯文本模型](#prep-multi-class-plaintext)
+ [原生文档模型](#prep-multi-class-structured)

## 纯文本模型
<a name="prep-multi-class-plaintext"></a>

要训练纯文本模型，您可以以 CSV 文件或来自 SageMaker AI Ground Truth 的增强清单文件的形式提供带标签的训练数据。

### CSV 文件
<a name="prep-multi-class-plaintext-csv"></a>

有关将 CSV 文件用于训练分类器的常规信息，请参阅 [CSV 文件](prep-class-data-format.md#prep-data-csv)。

以两列 CSV 文件形式提供训练数据。对于每一行，第一列包含类别标签值。第二列包含该类的示例文本文档。每行必须以\$1n 或\$1r\$1n 字符结尾。

以下示例介绍一个包含三个文档的 CSV 文件。

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

以下示例显示了 CSV 文件中的一行，该文件用于训练自定义分类器以检测电子邮件是否为垃圾邮件：

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### 增强清单文件
<a name="prep-multi-class-plaintext-manifest"></a>

有关使用增强清单文件训练分类器的一般信息，请参阅 [增强清单文件](prep-class-data-format.md#prep-data-annotations)。

对于纯文本文档，增强的清单文件的每一行都是一个完整的 JSON 对象，其中包含训练文档、单个类名以及来自 Ground Truth 的其他元数据。以下示例是一个增强清单文件，用于训练自定义分类器识别垃圾邮件：

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 以下示例显示了增强清单文件中的一个 JSON 对象，该对象已格式化以提高可读性：

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

在此示例中，`source` 属性提供训练文档的文本，`MultiClassJob` 属性从分类列表中分配类的索引。该 `job-name` 属性是您在 Ground Truth 中为标注任务定义的名称。

 在 Amazon Comprehend 中启动分类器训练任务时，需要指定相同的标注任务名称。

## 原生文档模型
<a name="prep-multi-class-structured"></a>

原生文档模型是使用原生文档（例如 PDF、DOCX 和图像）训练的模型。您以 CSV 文件形式提供训练数据。

### CSV 文件
<a name="prep-multi-class-structured-csv"></a>

有关将 CSV 文件用于训练分类器的常规信息，请参阅 [CSV 文件](prep-class-data-format.md#prep-data-csv)。

以三列 CSV 文件形式提供训练数据。对于每一行，第一列包含类别标签值。第二列包含该类示例文档的文件名。第三列包含页码。如果示例文档是图像，则页码是可选项。

以下示例介绍一个包含三个输入文档的 CSV 文件。

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

以下示例显示了 CSV 文件中的一行，该文件用于训练自定义分类器以检测电子邮件是否为垃圾邮件。PDF 文件的第 2 页包含垃圾邮件示例。

```
SPAM,email-content-3.pdf,2
```