

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 멀티클래스 모드
<a name="prep-classifier-data-multi-class"></a>

멀티클래스 모드에서 분류는 각 문서에 하나의 클래스를 할당합니다. 개별 클래스는 상호 배타적입니다. 예를 들어 영화를 코미디 또는 SF로 분류할 수 있지만 두 가지 모두로 분류할 수는 없습니다.

**참고**  
Amazon Comprehend 콘솔에서는 멀티클래스 모드를 단일 레이블 모드라고 합니다.

**Topics**
+ [일반 텍스트 모델](#prep-multi-class-plaintext)
+ [네이티브 문서 모델](#prep-multi-class-structured)

## 일반 텍스트 모델
<a name="prep-multi-class-plaintext"></a>

일반 텍스트 모델을 훈련하려면 레이블이 지정된 훈련 데이터를 CSV 파일 또는 SageMaker AI Ground Truth의 증강 매니페스트 파일로 제공할 수 있습니다.

### CSV 파일
<a name="prep-multi-class-plaintext-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 2열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 해당 클래스의 예제 텍스트 문서가 들어 있습니다. 각 행은\$1n 또는\$1r\$1n 문자로 끝나야 합니다.

다음 예제는 세 개의 문서가 있는 CSV 파일을 보여줍니다.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

다음 예제는 이메일 메시지가 스팸인지 여부를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다.

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### 증강 매니페스트 파일
<a name="prep-multi-class-plaintext-manifest"></a>

분류기 학습을 위한 증강 매니페스트 파일 사용에 대한 일반적인 내용은 [증강 매니페스트 파일](prep-class-data-format.md#prep-data-annotations)를 참조하세요.

일반 텍스트 문서의 경우 증강 매니페스트 파일의 각 라인은 학습 문서, 단일 클래스 이름 및 Ground Truth의 기타 메타데이터를 포함하는 완전한 JSON 객체입니다. 다음 예제는 스팸 이메일 메시지를 인식하도록 사용자 지정 분류기를 학습하기 위한 증강 매니페스트 파일입니다.

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 다음 예제는 증강 매니페스트 파일의 JSON 객체 하나를 가독성에 맞게 포맷한 것을 보여줍니다.

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

이 예제에서 `source` 속성은 학습 문서의 텍스트를 제공하고 `MultiClassJob` 속성은 분류 목록에 있는 하나의 클래스에 대한 색인을 할당합니다. `job-name` 속성은 Ground Truth에서 레이블 지정 작업에 대해 정의한 이름입니다.

 Amazon Comprehend에서 분류기 학습 작업을 시작할 때 동일한 레이블 지정 작업 이름을 지정합니다.

## 네이티브 문서 모델
<a name="prep-multi-class-structured"></a>

네이티브 문서 모델은 네이티브 문서(예: PDF, DOCX, 이미지)를 사용하여 학습시키는 모델입니다. 학습 데이터를 CSV 파일로 제공합니다.

### CSV 파일
<a name="prep-multi-class-structured-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 3열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 이 클래스의 예제 문서의 파일 이름이 들어 있습니다. 세 번째 열에는 페이지 번호가 들어 있습니다. 예제 문서가 이미지인 경우 페이지 번호는 선택 사항입니다.

다음 예제는 세 개의 입력 문서를 참조하는 CSV 파일을 보여줍니다.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

다음 예제는 이메일 메시지가 스팸인지 여부를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다. PDF 파일의 2페이지에 스팸의 예가 나와 있습니다.

```
SPAM,email-content-3.pdf,2
```