

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Clean Rooms ML의 훈련 데이터 요구 사항
<a name="ml-training-data-requirements"></a>

유사 모델을 성공적으로 생성하려면 훈련 데이터가 다음 요구 사항을 충족해야 합니다.
+ 훈련 데이터는 Parquet, CSV 또는 JSON 형식이어야 합니다.
**참고**  
Zstandard(ZSTD) 압축 Parquet 데이터는 지원되지 않습니다.
+ 훈련 데이터는 카탈로그로 작성해야 합니다 AWS Glue. 자세한 내용은 AWS Glue 개발자 안내서[의 AWS Glue 데이터 카탈로그 시작하기](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html)를 참조하세요. 스키마가 자동으로 추론되므로 AWS Glue 크롤러를 사용하여 테이블을 생성하는 것이 좋습니다.
+ 훈련 데이터 및 시드 데이터가 포함된 Amazon S3 버킷은 다른 Clean Rooms ML 리소스와 동일한 AWS 리전에 있습니다.
+ 훈련 데이터에는 항목 상호 작용이 각각 두 개 이상 있는 고유한 사용자 ID가 100,000개 이상 포함되어야 합니다.
+ 학습 데이터에는 최소 1백만 개의 레코드가 포함되어야 합니다.
+ [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 작업에 지정된 스키마는 AWS Glue 테이블이 생성될 때 정의된 스키마와 일치해야 합니다.
+ 제공된 표에 정의된 필수 필드는 [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 작업에 정의되어 있습니다.    
[See the AWS documentation website for more details](http://docs.aws.amazon.com/ko_kr/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ 선택적으로 범주형 또는 숫자형 기능을 최대 10개 제공할 수 있습니다.

다음은 CSV 형식의 유효한 훈련 데이터 세트의 예입니다.

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```