

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# AWS Clean Rooms ML의 모델
<a name="aws-models"></a>

AWS Clean Rooms ML은 두 당사자가 데이터를 서로 공유할 필요 없이 데이터에서 유사한 사용자를 식별할 수 있는 개인 정보 보호 방법을 제공합니다. 첫 번째 당사자는 유사 모델을 생성 및 구성하고 이를 공동 작업과 연결할 수 AWS Clean Rooms 있도록 훈련 데이터를에 가져옵니다. 그런 다음 시드 데이터를 공동 작업에 가져와서 훈련 데이터와 유사한 유사 세그먼트를 만듭니다.

작동하는 방식에 대한 자세한 설명은 [교차 계정 작업](ml-behaviors.md#ml-behaviors-cross-account-jobs) 섹션을 참조하세요.

다음 주제에서는 Clean Rooms ML에서 AWS 모델을 생성하고 구성하는 방법에 대한 정보를 제공합니다.

**Topics**
+ [

# AWS Clean Rooms ML의 개인 정보 보호
](ml-privacy.md)
+ [

# Clean Rooms ML의 훈련 데이터 요구 사항
](ml-training-data-requirements.md)
+ [

# Clean Rooms ML의 시드 데이터 요구 사항
](ml-seed-data-requirements.md)
+ [

# AWS Clean Rooms ML 모델 평가 지표
](ml-metrics.md)

# AWS Clean Rooms ML의 개인 정보 보호
<a name="ml-privacy"></a>

Clean Rooms ML은 훈련 데이터 공급자가 시드 데이터에 있는 사용자를 알고 시드 데이터 공급자가 훈련 데이터에 있는 사용자를 알 수 있는 *멤버십 추론 공격*의 위험을 줄이도록 설계되었습니다. 이 공격을 방지하기 위해 취할 수 있는 몇 가지 단계가 있습니다.

첫째, 시드 데이터 공급자는 Clean Rooms ML 결과를 직접 관찰하지 않으며 훈련 데이터 공급자는 시드 데이터를 절대 관찰할 수 없습니다. 시드 데이터 공급자는 출력 세그먼트에 시드 데이터를 포함하도록 선택할 수 있습니다.

다음으로, 훈련 데이터의 랜덤 샘플에서 유사 모델을 만듭니다. 이 샘플에는 시드 대상과 일치하지 않는 상당수의 사용자가 포함되어 있습니다. 이 프로세스를 통해 사용자가 데이터에 없는지 확인하기가 더 어려워지며, 이는 멤버십 추론의 또 다른 방법입니다.

또한 시드별 유사 모델 훈련의 모든 파라미터에 여러 시드 고객을 사용할 수 있습니다. 이로 인해 모델이 오버피팅할 수 있는 양과 사용자에 대해 추론할 수 있는 양이 제한됩니다. 따라서 시드 데이터의 최소 크기는 사용자 500명으로 설정하는 것이 좋습니다.

마지막으로, 사용자 수준 지표는 훈련 데이터 공급자에게 절대 제공되지 않으므로 멤버십 추론 공격의 또 다른 수단이 없어집니다.

# Clean Rooms ML의 훈련 데이터 요구 사항
<a name="ml-training-data-requirements"></a>

유사 모델을 성공적으로 생성하려면 훈련 데이터가 다음 요구 사항을 충족해야 합니다.
+ 훈련 데이터는 Parquet, CSV 또는 JSON 형식이어야 합니다.
**참고**  
Zstandard(ZSTD) 압축 Parquet 데이터는 지원되지 않습니다.
+ 훈련 데이터는 카탈로그로 작성해야 합니다 AWS Glue. 자세한 내용은 AWS Glue 개발자 안내서[의 AWS Glue 데이터 카탈로그 시작하기](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html)를 참조하세요. 스키마가 자동으로 추론되므로 AWS Glue 크롤러를 사용하여 테이블을 생성하는 것이 좋습니다.
+ 훈련 데이터 및 시드 데이터가 포함된 Amazon S3 버킷은 다른 Clean Rooms ML 리소스와 동일한 AWS 리전에 있습니다.
+ 훈련 데이터에는 항목 상호 작용이 각각 두 개 이상 있는 고유한 사용자 ID가 100,000개 이상 포함되어야 합니다.
+ 학습 데이터에는 최소 1백만 개의 레코드가 포함되어야 합니다.
+ [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 작업에 지정된 스키마는 AWS Glue 테이블이 생성될 때 정의된 스키마와 일치해야 합니다.
+ 제공된 표에 정의된 필수 필드는 [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 작업에 정의되어 있습니다.    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ko_kr/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ 선택적으로 범주형 또는 숫자형 기능을 최대 10개 제공할 수 있습니다.

다음은 CSV 형식의 유효한 훈련 데이터 세트의 예입니다.

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```

# Clean Rooms ML의 시드 데이터 요구 사항
<a name="ml-seed-data-requirements"></a>

유사 모델의 시드 데이터는 Amazon S3 버킷에서 직접 가져오거나 SQL 쿼리의 결과에서 가져올 수 있습니다.

직접 제공되는 시드 데이터는 다음 요구 사항을 충족해야 합니다.
+ 시드 데이터는 사용자 IDs.
+ 시드 크기는 25\$1500,000개의 고유 사용자 ID여야 합니다.
+ 최소 시드 사용자 수는 구성된 대상 모델을 생성할 때 지정된 최소 일치 시드 크기 값과 일치해야 합니다.

다음은 CSV 형식의 유효한 훈련 데이터 세트의 예입니다.

```
{"user_id": "abc"}
{"user_id": "def"}
{"user_id": "ghijkl"}
{"user_id": "123"}
{"user_id": "456"}
{"user_id": "7890"}
```

# AWS Clean Rooms ML 모델 평가 지표
<a name="ml-metrics"></a>

Clean Rooms ML은 리콜 및 관련성 점수를 계산하여 모델의 성능을 결정합니다.**** 리콜은 유사 데이터와 훈련 데이터 간의 유사성을 비교합니다. 관련성 점수는 모델 성능이 좋은지 여부가 아니라 대상의 규모를 결정하는 데 사용됩니다.

*리콜*은 유사 세그먼트가 훈련 데이터와 얼마나 유사한지를 편향 없이 측정한 것입니다. 리콜은 대상 생성 작업을 통해 시드 대상에 포함된 훈련 데이터 샘플에서 가장 유사한 사용자(기본적으로 가장 유사한 20%)의 백분율입니다. 값의 범위는 0\$11이며, 값이 클수록 더 나은 대상을 나타냅니다. 최대 빈 백분율과 거의 동일한 리콜 값은 대상 모델이 무작위 선택과 동일함을 나타냅니다.

Clean Rooms ML은 모델을 구축할 때 실제 부정적 사용자를 정확하게 분류하지 않기 때문에 정확도, 정밀도, F1 점수보다 이 평가 지표가 더 나은 평가 지표로 간주됩니다.

세그먼트 수준 *관련성 점수*는 -1(가장 유사하지 않음)에서 1(가장 유사함) 사이의 값을 갖는 유사성 척도입니다. Clean Rooms ML은 다양한 세그먼트 크기에 대한 관련성 점수 집합을 계산하여 데이터에 가장 적합한 세그먼트 크기를 결정하는 데 도움을 줍니다. 관련성 점수는 세그먼트 크기가 증가함에 따라 단조롭게 감소하므로 세그먼트 크기가 증가함에 따라 시드 데이터와 덜 유사할 수 있습니다. 세그먼트 수준 관련성 점수가 0에 도달하면 모델은 유사 세그먼트의 모든 사용자가 시드 데이터와 동일한 분포에 속한다고 예측합니다. 출력 크기를 늘리면 유사 세그먼트에 시드 데이터와 동일한 분포에 속하지 않는 사용자가 포함될 가능성이 높습니다.

관련성 점수는 단일 캠페인 내에서 정규화되므로 여러 캠페인을 비교하는 데 사용해서는 안 됩니다. 관련성 점수는 인벤토리 품질, 인벤토리 유형, 광고 시기 등과 같은 관련성 외에도 여러 복잡한 요인의 영향을 받기 때문에 비즈니스 성과에 대한 단일 소스 증거로 사용해서는 안 됩니다.

관련성 점수는 시드의 품질을 판단하는 데 사용할 것이 아니라 높이거나 낮출 수 있는지를 판단하는 데 사용해야 합니다. 다음 예제를 살펴보세요.
+ 전부 플러스인 점수 - 이는 유사 세그먼트에 포함된 것보다 유사한 것으로 예측된 출력 사용자가 더 많다는 것을 나타냅니다. 이는 지난 한 달 동안 치약을 구매한 모든 사람과 같이 규모가 큰 시장의 일부 시드 데이터에서 흔히 볼 수 있습니다. 지난 한 달 동안 치약을 두 번 이상 구매한 모든 사람과 같이 소규모 시드 데이터를 살펴보는 것이 좋습니다.
+ 원하는 유사 세그먼트 크기에서 전부 마이너스 점수 - 이는 Clean Rooms ML이 원하는 유사 세그먼트 크기에서 유사한 사용자가 충분하지 않을 것으로 예측한다는 것을 나타냅니다. 이는 시드 데이터가 너무 구체적이거나 시장 규모가 너무 작기 때문일 수 있습니다. 시드 데이터에 적용할 필터 수를 줄이거나 시장을 확대하는 것이 좋습니다. 예를 들어 원래 시드 데이터가 유모차와 카시트를 구매한 고객이었다면 유아용품을 여러 개 구매한 고객으로 시장을 확대할 수 있습니다.

훈련 데이터 공급자는 관련성 점수의 노출 여부와 관련성 점수를 계산하는 버킷 빈을 결정합니다.