

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 多類別模式
<a name="prep-classifier-data-multi-class"></a>

在多類別模式中，分類會為每個文件指派一個類別。個別類別是互斥的。例如，您可以將電影分類為喜劇或科幻小說，但不能同時分類。

**注意**  
Amazon Comprehend 主控台將多類別模式稱為單一標籤模式。

**Topics**
+ [純文字模型](#prep-multi-class-plaintext)
+ [原生文件模型](#prep-multi-class-structured)

## 純文字模型
<a name="prep-multi-class-plaintext"></a>

若要訓練純文字模型，您可以將標記的訓練資料提供為 CSV 檔案，或從 SageMaker AI Ground Truth 提供為擴增資訊清單檔案。

### CSV 檔案
<a name="prep-multi-class-plaintext-csv"></a>

如需針對訓練分類器使用 CSV 檔案的一般資訊，請參閱 [CSV 檔案](prep-class-data-format.md#prep-data-csv)。

以兩欄 CSV 檔案提供訓練資料。對於每一列，第一欄包含類別標籤值。第二欄包含該類別的範例文字文件。每一列的結尾都必須是 \$1n 或 \$1r\$1n 個字元。

下列範例顯示包含三個文件的 CSV 檔案。

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

下列範例顯示 CSV 檔案的一列，該檔案會訓練自訂分類器以偵測電子郵件訊息是否為垃圾郵件：

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### 增強的資訊清單檔案
<a name="prep-multi-class-plaintext-manifest"></a>

如需針對訓練分類器使用擴增資訊清單檔案的一般資訊，請參閱 [增強的資訊清單檔案](prep-class-data-format.md#prep-data-annotations)。

對於純文字文件，擴增資訊清單檔案的每一行都是完整的 JSON 物件，其中包含訓練文件、單一類別名稱，以及來自 Ground Truth 的其他中繼資料。下列範例是擴增資訊清單檔案，用於訓練自訂分類器以辨識垃圾郵件：

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 下列範例顯示擴增資訊清單檔案中的一個 JSON 物件，格式為可讀性：

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

在此範例中， `source` 屬性會提供訓練文件的文字，而 `MultiClassJob` 屬性會從分類清單中指派類別的索引。`job-name` 屬性是您在 Ground Truth 中為標記任務定義的名稱。

 當您在 Amazon Comprehend 中啟動分類器訓練任務時，您可以指定相同的標記任務名稱。

## 原生文件模型
<a name="prep-multi-class-structured"></a>

原生文件模型是您使用原生文件 （例如 PDF、DOCX 和映像） 訓練的模型。您以 CSV 檔案的形式提供訓練資料。

### CSV 檔案
<a name="prep-multi-class-structured-csv"></a>

如需針對訓練分類器使用 CSV 檔案的一般資訊，請參閱 [CSV 檔案](prep-class-data-format.md#prep-data-csv)。

以三欄 CSV 檔案提供訓練資料。對於每一列，第一欄包含類別標籤值。第二欄包含此類別的範例文件檔案名稱。第三欄包含頁碼。如果範例文件是影像，則頁碼為選用。

下列範例顯示參考三個輸入文件的 CSV 檔案。

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

下列範例顯示 CSV 檔案的一列，該檔案會訓練自訂分類器，以偵測電子郵件訊息是否為垃圾郵件。PDF 檔案的第 2 頁包含垃圾郵件範例。

```
SPAM,email-content-3.pdf,2
```