本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS Clean Rooms ML 中的模型
<a name="aws-models"></a>

AWS Clean Rooms ML 為雙方提供隱私權保護方法，以識別其資料中的類似使用者，而無需彼此共用其資料。第一方將訓練資料帶到 ， AWS Clean Rooms 以便他們可以建立和設定類似模型，並將其與協同合作建立關聯。然後，種子資料會帶入協同合作，以建立類似訓練資料的外觀客群。

如需如何運作的詳細說明，請參閱 [跨帳戶任務](ml-behaviors.md#ml-behaviors-cross-account-jobs)。

下列主題提供如何在 Clean Rooms ML 中建立和設定 AWS 模型的相關資訊。

**Topics**
+ [AWS Clean Rooms ML 的隱私權保護](ml-privacy.md)
+ [Clean Rooms ML 的訓練資料需求](ml-training-data-requirements.md)
+ [Clean Rooms ML 的種子資料需求](ml-seed-data-requirements.md)
+ [AWS Clean Rooms ML 模型評估指標](ml-metrics.md)

# AWS Clean Rooms ML 的隱私權保護
<a name="ml-privacy"></a>

Clean Rooms ML 旨在降低*成員資格推論攻擊*的風險，訓練資料提供者可以了解種子資料中的人物，而種子資料提供者可以了解訓練資料中的人物。採取幾個步驟來防止此攻擊。

首先，種子資料提供者不會直接觀察 Clean Rooms ML 輸出，而訓練資料提供者永遠無法觀察種子資料。種子資料提供者可以選擇在輸出區段中包含種子資料。

接著，從訓練資料的隨機樣本建立外觀模型。此範例包含大量不符合種子受眾的使用者。此程序可讓您更難判斷使用者是否不在資料中，這是成員資格推論的另一個途徑。

此外，多個種子客戶可用於種子特定樣模型訓練的每個參數。這限制了模型可過度擬合的程度，以及可推斷有關使用者的程度。因此，我們建議種子資料的大小下限為 500 個使用者。

最後，使用者層級指標永遠不會提供給訓練資料提供者，這會消除成員資格推論攻擊的另一個途徑。

# Clean Rooms ML 的訓練資料需求
<a name="ml-training-data-requirements"></a>

若要成功建立類似模型，您的訓練資料必須符合下列要求：
+ 訓練資料必須是 Parquet、CSV 或 JSON 格式。
**注意**  
不支援 Zstandard (ZSTD) 壓縮 Parquet 資料。
+ 您的訓練資料必須編製目錄 AWS Glue。如需詳細資訊，請參閱《 AWS Glue 開發人員指南》中的 [ AWS Glue Data Catalog 入門](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html)。我們建議您使用 AWS Glue 爬蟲程式來建立資料表，因為系統會自動推斷結構描述。
+ 包含訓練資料和種子資料的 Amazon S3 儲存貯體位於與其他 Clean Rooms ML 資源相同的 AWS 區域。
+ 訓練資料必須至少包含 100，000 個唯一使用者 IDs，每個 ID 至少有兩個項目互動。
+ 訓練資料必須至少包含 100 萬筆記錄。
+ [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 動作中指定的結構描述必須與建立 AWS Glue 資料表時定義的結構描述相符。
+ 在 [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html) 動作中定義了所提供資料表中定義的必要欄位。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ 或者，您可以提供總共最多 10 個分類或數值功能。

以下是 CSV 格式的有效訓練資料集範例

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```

# Clean Rooms ML 的種子資料需求
<a name="ml-seed-data-requirements"></a>

類似模型的種子資料可以直接來自 Amazon S3 儲存貯體或 SQL 查詢的結果。

直接提供的種子資料必須符合下列要求：
+ 種子資料必須是具有使用者 IDs 清單的 JSON 行格式。
+ 種子大小應介於 25 到 500，000 個唯一的使用者 IDs 之間。
+ 種子使用者的最小數量必須符合您建立設定的對象模型時指定的最小相符種子大小值。

以下是 CSV 格式的有效訓練資料集範例

```
{"user_id": "abc"}
{"user_id": "def"}
{"user_id": "ghijkl"}
{"user_id": "123"}
{"user_id": "456"}
{"user_id": "7890"}
```

# AWS Clean Rooms ML 模型評估指標
<a name="ml-metrics"></a>

Clean Rooms ML 會計算*召回*和*相關性分數*，以判斷模型的效能。Recall 會比較類似資料和訓練資料之間的相似性。相關性分數用於決定受眾應達到多大，而不是模型是否表現良好。

*Recall* 是衡量類似區段與訓練資料相似度的無偏差指標。Recall 是來自訓練資料範例中最相似的使用者百分比 （預設為最相似的 20%)，由受眾產生任務包含在種子受眾中。值範圍介於 0-1 之間，較大的值表示更好的對象。大約等於最大儲存貯體百分比的回收值表示對象模型等同於隨機選取。

我們認為這是比準確性、精確度和 F1 分數更好的評估指標，因為在建置模型時，Clean Rooms ML 沒有準確標記真正的負面使用者。

區段層級*相關性分數*是相似度的指標，其值範圍從 -1 （最不相似） 到 1 （最相似）。Clean Rooms ML 會針對各種客群大小計算一組相關性分數，協助您判斷資料的最佳客群大小。關聯性分數會隨著區段大小的增加而單調減少，因此隨著區段大小的增加，它可能會與種子資料較不相似。當區段層級相關性分數達到 0 時，模型會預測外觀區段中的所有使用者都來自與種子資料相同的分佈。增加輸出大小可能會包含在看起來像區段中的使用者，這些使用者不是來自與種子資料相同的分佈。

關聯性分數會在單一行銷活動中標準化，不應用於跨行銷活動進行比較。關聯性分數不應用作任何業務成果的單一來源證據，因為除了相關性之外，這些分數還受到多個複雜因素的影響，例如庫存品質、庫存類型、廣告時間等。

關聯性分數不應用來判斷種子的品質，而是是否可以增加或減少。請考量下列範例：
+ 所有正分數 – 這表示預測為類似 的輸出使用者比包含在類似 區段中更多。這對於屬於大型市場一部分的種子資料很常見，例如過去一個月內購買過含括物的每個人。我們建議查看較小的種子資料，例如在過去一個月中購買一次以上的每個消費者。
+ 您所需類似區段大小的所有負數分數或負數 – 這表示 Clean Rooms ML 預測所需類似區段大小中沒有足夠的類似使用者。這可能是因為種子資料太具體或市場太小。我們建議將較少的篩選條件套用至種子資料或擴大市場。例如，如果原始種子資料是購買助行器和汽車座位的客戶，您可以將市場擴展到購買多個嬰兒產品的客戶。

訓練資料提供者會判斷是否公開相關性分數，以及計算相關性分數的儲存貯體。