

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 분류기 학습 데이터 준비
<a name="prep-classifier-data"></a>

사용자 지정 분류의 경우 멀티클래스 모드 또는 멀티레이블 모드에서 모델을 학습합니다. 멀티클래스 모드는 단일 클래스를 각 문서와 연결합니다. 멀티레이블 모드는 하나 이상의 클래스를 각 문서와 연결합니다. 입력 파일 형식은 모드마다 다르므로 학습 데이터를 생성하기 전에 사용할 모드를 선택합니다.

**참고**  
Amazon Comprehend 콘솔에서는 멀티클래스 모드를 단일 레이블 모드라고 합니다.

사용자 지정 분류는 일반 텍스트 문서로 학습시키는 모델 및 기본 문서(예: PDF, Word 또는 이미지)로 학습시키는 모델을 지원합니다. 분류기 모델 및 지원되는 문서 유형에 대한 자세한 내용은 [학습 분류 모델](training-classifier-model.md)을 참조하세요.

사용자 지정 분류기 모델을 학습할 데이터를 준비하려면: 

1. 이 분류기가 분석할 클래스를 식별합니다. 사용할 모드(멀티클래스 또는 멀티레이블)를 결정합니다.

1. 모델이 일반 텍스트 문서 또는 반정형 문서를 분석하기 위한 모델인지에 따라 분류기 모델 유형을 결정합니다.

1. 각 클래스에 대한 문서 예제를 수집합니다. 최소 학습 요구 사항은 [문서 분류를 위한 일반 할당량](guidelines-and-limits.md#limits-class-general)을 참조하세요.

1. 일반 텍스트 모델에서, 사용할 학습 파일 형식(CSV 파일 또는 증강 매니페스트 파일)을 선택합니다. 네이티브 문서 모델을 학습시키려면 항상 CSV 파일을 사용합니다.

**Topics**
+ [분류기 학습 파일 형식](prep-class-data-format.md)
+ [멀티클래스 모드](prep-classifier-data-multi-class.md)
+ [멀티레이블 모드](prep-classifier-data-multi-label.md)

# 분류기 학습 파일 형식
<a name="prep-class-data-format"></a>

일반 텍스트 모델의 경우 분류기 훈련 데이터를 CSV 파일 또는 SageMaker AI Ground Truth를 사용하여 생성하는 증강 매니페스트 파일로 제공할 수 있습니다. CSV 파일 또는 증강 매니페스트 파일에는 각 학습 문서의 텍스트와 관련 레이블이 포함됩니다.

네이티브 문서 모델의 경우 분류기 학습 데이터를 CSV 파일로 제공합니다. CSV 파일에는 각 학습 문서의 파일 이름과 관련 레이블이 포함됩니다. 학습 작업을 위해 Amazon S3 입력 폴더에 학습 문서를 포함시킵니다.

## CSV 파일
<a name="prep-data-csv"></a>

레이블이 지정된 학습 데이터를 UTF-8 인코딩 텍스트로 CSV 파일에 제공합니다. 헤더 행은 포함시키지 않습니다. 파일에 헤더 행을 추가하면 런타임 오류가 발생할 수 있습니다.

CSV 파일의 각 행에 대해 첫 번째 열에는 하나 이상의 클래스 레이블이 포함되며, 클래스 레이블은 임의의 유효한 UTF-8 문자열일 수 있습니다. 의미가 중첩되지 않는 명확한 클래스 이름을 사용하는 것이 좋습니다. 이름에는 공백이 포함될 수 있으며 밑줄이나 하이픈으로 연결된 여러 단어로 구성될 수 있습니다.

행의 값을 구분하는 쉼표 앞이나 뒤의 문자에 공백을 두지 마십시오.

CSV 파일의 정확한 내용은 분류기 모드와 학습 데이터 유형에 따라 달라집니다. 자세한 내용은 [멀티클래스 모드](prep-classifier-data-multi-class.md) 및 [멀티레이블 모드](prep-classifier-data-multi-label.md)를 참조하세요.

## 증강 매니페스트 파일
<a name="prep-data-annotations"></a>

증강 매니페스트 파일은 SageMaker AI Ground Truth를 사용하여 생성하는 레이블이 지정된 데이터 세트입니다. Ground Truth는 사용자 또는 사용자가 고용한 작업 인력이 기계 학습 모델을 위한 학습 데이터 세트를 구축하는 데 도움이 되는 데이터 레이블 지정 서비스입니다.

Ground Truth 및 Ground Truth가 생성하는 출력에 대한 자세한 내용은 Amazon [ SageMaker AI 개발자 안내서의 SageMaker AI Ground Truth를 사용하여 데이터 레이블](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) 지정을 참조하세요. *Amazon SageMaker *

증강 매니페스트 파일은 JSON 라인 형식입니다. 이 파일에서 각 라인은 학습 문서 및 관련 레이블이 포함된 완전한 JSON 객체입니다. 각 라인의 정확한 내용은 분류기 모드에 따라 다릅니다. 자세한 내용은 [멀티클래스 모드](prep-classifier-data-multi-class.md) 및 [멀티레이블 모드](prep-classifier-data-multi-label.md)를 참조하세요.

Amazon Comprehend에 학습 데이터를 제공할 때는 하나 이상의 레이블 속성 이름을 지정합니다. 지정하는 속성 이름의 수는 증강시킨 매니페스트 파일이 단일 레이블 지정 작업의 출력인지 아니면 체인 레이블 지정 작업의 출력인지에 따라 달라집니다.

파일이 단일 레이블 지정 작업의 출력인 경우 Ground Truth 작업에서 단일 레이블 속성 이름을 지정하십시오.

파일이 체인 레이블 지정 작업의 출력인 경우 체인에 있는 하나 이상의 작업에 대한 레이블 속성 이름을 지정하십시오. 각 레이블 속성 이름은 개별 작업의 주석을 제공합니다. 체인 레이블 지정 작업의 증강 매니페스트 파일에 대해 이러한 속성을 최대 5개까지 지정할 수 있습니다.

체인 레이블 지정 작업에 대한 자세한 내용과 해당 작업이 생성하는 출력의 예는 Amazon SageMaker AI 개발자 안내서의 [체인 레이블 지정 작업을 참조하세요](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html).

# 멀티클래스 모드
<a name="prep-classifier-data-multi-class"></a>

멀티클래스 모드에서 분류는 각 문서에 하나의 클래스를 할당합니다. 개별 클래스는 상호 배타적입니다. 예를 들어 영화를 코미디 또는 SF로 분류할 수 있지만 두 가지 모두로 분류할 수는 없습니다.

**참고**  
Amazon Comprehend 콘솔에서는 멀티클래스 모드를 단일 레이블 모드라고 합니다.

**Topics**
+ [일반 텍스트 모델](#prep-multi-class-plaintext)
+ [네이티브 문서 모델](#prep-multi-class-structured)

## 일반 텍스트 모델
<a name="prep-multi-class-plaintext"></a>

일반 텍스트 모델을 훈련하려면 레이블이 지정된 훈련 데이터를 CSV 파일 또는 SageMaker AI Ground Truth의 증강 매니페스트 파일로 제공할 수 있습니다.

### CSV 파일
<a name="prep-multi-class-plaintext-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 2열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 해당 클래스의 예제 텍스트 문서가 들어 있습니다. 각 행은\$1n 또는\$1r\$1n 문자로 끝나야 합니다.

다음 예제는 세 개의 문서가 있는 CSV 파일을 보여줍니다.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

다음 예제는 이메일 메시지가 스팸인지 여부를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다.

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### 증강 매니페스트 파일
<a name="prep-multi-class-plaintext-manifest"></a>

분류기 학습을 위한 증강 매니페스트 파일 사용에 대한 일반적인 내용은 [증강 매니페스트 파일](prep-class-data-format.md#prep-data-annotations)를 참조하세요.

일반 텍스트 문서의 경우 증강 매니페스트 파일의 각 라인은 학습 문서, 단일 클래스 이름 및 Ground Truth의 기타 메타데이터를 포함하는 완전한 JSON 객체입니다. 다음 예제는 스팸 이메일 메시지를 인식하도록 사용자 지정 분류기를 학습하기 위한 증강 매니페스트 파일입니다.

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 다음 예제는 증강 매니페스트 파일의 JSON 객체 하나를 가독성에 맞게 포맷한 것을 보여줍니다.

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

이 예제에서 `source` 속성은 학습 문서의 텍스트를 제공하고 `MultiClassJob` 속성은 분류 목록에 있는 하나의 클래스에 대한 색인을 할당합니다. `job-name` 속성은 Ground Truth에서 레이블 지정 작업에 대해 정의한 이름입니다.

 Amazon Comprehend에서 분류기 학습 작업을 시작할 때 동일한 레이블 지정 작업 이름을 지정합니다.

## 네이티브 문서 모델
<a name="prep-multi-class-structured"></a>

네이티브 문서 모델은 네이티브 문서(예: PDF, DOCX, 이미지)를 사용하여 학습시키는 모델입니다. 학습 데이터를 CSV 파일로 제공합니다.

### CSV 파일
<a name="prep-multi-class-structured-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 3열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 이 클래스의 예제 문서의 파일 이름이 들어 있습니다. 세 번째 열에는 페이지 번호가 들어 있습니다. 예제 문서가 이미지인 경우 페이지 번호는 선택 사항입니다.

다음 예제는 세 개의 입력 문서를 참조하는 CSV 파일을 보여줍니다.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

다음 예제는 이메일 메시지가 스팸인지 여부를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다. PDF 파일의 2페이지에 스팸의 예가 나와 있습니다.

```
SPAM,email-content-3.pdf,2
```

# 멀티레이블 모드
<a name="prep-classifier-data-multi-label"></a>

멀티레이블 모드에서 개별 클래스는 상호 배타적이지 않은 서로 다른 범주를 나타냅니다. 멀티레이블 분류는 각 문서에 하나 이상의 클래스를 지정합니다. 예를 들어 한 영화를 다큐멘터리로 분류하고 다른 영화를 공상 과학, 액션, 코미디로 분류할 수 있습니다.

학습의 경우 멀티레이블 모드는 최대 100개의 고유한 클래스를 포함하는 최대 100만 개의 예제를 지원합니다.

**Topics**
+ [일반 텍스트 모델](#prep-multi-label-plaintext)
+ [네이티브 문서 모델](#prep-multi-label-structured)

## 일반 텍스트 모델
<a name="prep-multi-label-plaintext"></a>

일반 텍스트 모델을 훈련하려면 레이블이 지정된 훈련 데이터를 CSV 파일 또는 SageMaker AI Ground Truth의 증강 매니페스트 파일로 제공할 수 있습니다.

### CSV 파일
<a name="prep-multi-label-plaintext-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 2열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있고 두 번째 열에는 이러한 클래스에 대한 예제 텍스트 문서가 들어 있습니다. 첫 번째 열에 클래스를 두 개 이상 입력하려면 각 클래스 사이에 구분 기호(예: \$1)를 사용합니다.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

다음 예제는 영화 요약에서 장르를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다.

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

클래스 이름 사이의 기본적인 구분 기호는 파이프(\$1) 입니다. 하지만 다른 문자를 구분 기호로 사용할 수도 있습니다. 구분 기호는 사용자의 클래스 이름의 모든 문자와 구별되어야 합니다. 예를 들어 클래스가 CLASS\$11, CLASS\$12, 및 CLASS\$13인 경우 밑줄(**\$1**)은 클래스 이름의 일부입니다. 따라서 클래스 이름을 구분할 때 밑줄을 구분 기호로 사용하지 마십시오.

### 증강 매니페스트 파일
<a name="prep-multi-label-plaintext-manifest"></a>

분류기 학습을 위한 증강 매니페스트 파일 사용에 대한 일반적인 내용은 [증강 매니페스트 파일](prep-class-data-format.md#prep-data-annotations)를 참조하세요.

일반 텍스트 문서의 경우 증강 매니페스트 파일의 각 라인은 완전한 JSON 객체입니다. 여기에는 Ground Truth의 학습 문서, 클래스 이름 및 기타 메타데이터가 포함됩니다. 다음 예제는 영화 요약에서 장르를 감지하도록 사용자 지정 분류기를 학습시키는 데 사용되는 증강 매니페스트 파일입니다.

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 다음 예제는 증강 매니페스트 파일의 JSON 객체 하나를 가독성에 맞게 포맷한 것을 보여줍니다.

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

이 예제에서 `source` 속성은 학습 문서의 텍스트를 제공하고 `MultiLabelJob` 속성은 분류 목록에 있는 여러 클래스의 색인을 할당합니다. `MultiLabelJob` 메타데이터의 작업 이름은 Ground Truth에서 레이블 지정 작업에 대해 정의한 이름입니다.

## 네이티브 문서 모델
<a name="prep-multi-label-structured"></a>

네이티브 문서 모델은 네이티브 문서(예: PDF, DOCX, 이미지 파일)를 사용하여 학습시키는 모델입니다. 레이블이 지정된 학습 데이터는 CSV 파일로 제공합니다.

### CSV 파일
<a name="prep-multi-label-structured-csv"></a>

CSV 파일을 사용하여 분류기를 학습시키는 방법에 대한 일반적인 정보는 [CSV 파일](prep-class-data-format.md#prep-data-csv)를 참조하세요.

학습 데이터를 3열 CSV 파일로 제공합니다. 각 행의 첫 번째 열에는 클래스 레이블 값이 들어 있습니다. 두 번째 열에는 이러한 클래스의 예제 문서의 파일 이름이 들어 있습니다. 세 번째 열에는 페이지 번호가 들어 있습니다. 예제 문서가 이미지인 경우 페이지 번호는 선택 사항입니다.

첫 번째 열에 클래스를 두 개 이상 입력하려면 각 클래스 사이에 구분 기호(예: \$1)를 사용합니다.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

다음 예제는 영화 요약에서 장르를 감지하도록 사용자 지정 분류기를 학습시키는 CSV 파일의 한 행을 보여줍니다. PDF 파일의 2페이지에는 코미디/청소년 영화의 예시가 포함되어 있습니다.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

클래스 이름 사이의 기본적인 구분 기호는 파이프(\$1) 입니다. 하지만 다른 문자를 구분 기호로 사용할 수도 있습니다. 구분 기호는 사용자의 클래스 이름의 모든 문자와 구별되어야 합니다. 예를 들어 클래스가 CLASS\$11, CLASS\$12, 및 CLASS\$13인 경우 밑줄(**\$1**)은 클래스 이름의 일부입니다. 따라서 클래스 이름을 구분할 때 밑줄을 구분 기호로 사용하지 마십시오.