

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# AWS modèles dans Clean Rooms ML
<a name="aws-models"></a>

AWS Clean Rooms ML fournit une méthode préservant la confidentialité permettant à deux parties d'identifier des utilisateurs similaires dans leurs données sans avoir à partager leurs données entre elles. La première partie apporte les données d'entraînement AWS Clean Rooms afin de créer et de configurer un modèle similaire et de l'associer à une collaboration. Les données de départ sont ensuite transmises à la collaboration pour créer un segment similaire aux données d'entraînement.

Pour une explication plus détaillée de son fonctionnement, voir[Emplois multi-comptes](ml-behaviors.md#ml-behaviors-cross-account-jobs).

Les rubriques suivantes fournissent des informations sur la création et la configuration de AWS modèles dans Clean Rooms ML.

**Topics**
+ [Protection de la confidentialité d'AWS Clean Rooms ML](ml-privacy.md)
+ [Exigences relatives aux données de formation pour Clean Rooms ML](ml-training-data-requirements.md)
+ [Exigences relatives aux données de base pour Clean Rooms ML](ml-seed-data-requirements.md)
+ [Mesures d'évaluation du modèle AWS Clean Rooms ML](ml-metrics.md)

# Protection de la confidentialité d'AWS Clean Rooms ML
<a name="ml-privacy"></a>

Clean Rooms ML est conçu pour réduire le risque d'*attaques par inférence d'adhésion*, dans le cadre desquelles le fournisseur de données de formation peut savoir qui figure dans les données de départ et le fournisseur de données de départ peut savoir qui figure dans les données d'entraînement. Plusieurs mesures sont prises pour empêcher cette attaque.

Tout d'abord, les fournisseurs de données de départ n'observent pas directement les résultats de Clean Rooms ML et les fournisseurs de données de formation ne peuvent jamais observer les données de départ. Les fournisseurs de données de départ peuvent choisir d'inclure les données de départ dans le segment de sortie.

Ensuite, le modèle similaire est créé à partir d'un échantillon aléatoire des données d'entraînement. Cet échantillon inclut un nombre important d'utilisateurs qui ne correspondent pas à l'audience initiale. Ce processus rend plus difficile de déterminer si un utilisateur ne figurait pas dans les données, ce qui constitue un autre moyen de déduire son appartenance.

De plus, plusieurs clients de semences peuvent être utilisés pour chaque paramètre de la formation d'un modèle similaire spécifique à une graine. Cela limite le surajustement du modèle, et donc ce qui peut être déduit à propos d'un utilisateur. Par conséquent, nous recommandons que la taille minimale des données de départ soit de 500 utilisateurs. 

Enfin, les indicateurs au niveau des utilisateurs ne sont jamais fournis aux fournisseurs de données de formation, ce qui élimine toute autre possibilité d'attaque par inférence d'adhésion.

# Exigences relatives aux données de formation pour Clean Rooms ML
<a name="ml-training-data-requirements"></a>

Pour réussir à créer un modèle similaire, vos données d'entraînement doivent répondre aux exigences suivantes :
+ Les données d'entraînement doivent être au format Parquet, CSV ou JSON.
**Note**  
Les données Parquet compressées au format Zstandard (ZSTD) ne sont pas prises en charge.
+ Vos données d'entraînement doivent être cataloguées dans. AWS Glue Pour plus d'informations, consultez [Getting started with the AWS Glue Data Catalog](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html) dans le manuel du AWS Glue développeur. Nous vous recommandons d'utiliser AWS Glue des robots d'exploration pour créer vos tables, car le schéma est déduit automatiquement.
+ Le compartiment Amazon S3 qui contient les données d'entraînement et les données de départ se trouve dans la même AWS région que vos autres ressources Clean Rooms ML.
+ Les données d'entraînement doivent contenir au moins 100 000 utilisateurs uniques IDs ayant chacun au moins deux interactions avec des éléments.
+ Les données d'entraînement doivent contenir au moins 1 million d'enregistrements.
+ Le schéma spécifié dans l'[CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)action doit être aligné sur le schéma défini lors de la création de la AWS Glue table.
+ Les champs obligatoires, tels que définis dans le tableau fourni, sont définis dans l'[CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)action.    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/fr_fr/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ Vous pouvez éventuellement fournir jusqu'à 10 caractéristiques catégorielles ou numériques au total.

Voici un exemple d'ensemble de données d'entraînement valide au format CSV

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```

# Exigences relatives aux données de base pour Clean Rooms ML
<a name="ml-seed-data-requirements"></a>

Les données de départ d'un modèle similaire peuvent provenir directement d'un compartiment Amazon S3 ou des résultats d'une requête SQL. 

Les données sur les semences fournies directement doivent répondre aux exigences suivantes :
+ Les données de départ doivent être au format de lignes JSON avec une liste d'utilisateurs IDs.
+ La taille de la graine doit être comprise entre 25 et 500 000 utilisateurs uniques IDs.
+ Le nombre minimum d'utilisateurs de départ doit correspondre à la valeur de taille de départ minimale correspondante spécifiée lors de la création du modèle d'audience configuré.

Voici un exemple d'ensemble de données d'entraînement valide au format CSV

```
{"user_id": "abc"}
{"user_id": "def"}
{"user_id": "ghijkl"}
{"user_id": "123"}
{"user_id": "456"}
{"user_id": "7890"}
```

# Mesures d'évaluation du modèle AWS Clean Rooms ML
<a name="ml-metrics"></a>

Clean Rooms ML calcule le *score de *rappel* et de pertinence* pour déterminer les performances de votre modèle. Recall compare la similitude entre les données similaires et les données d'entraînement. Le score de pertinence est utilisé pour déterminer la taille de l'audience, et non pour déterminer si le modèle est performant.

Le *rappel* est une mesure impartiale de la similitude entre le segment similaire et les données d'entraînement. Le rappel est le pourcentage d'utilisateurs les plus similaires (par défaut, les 20 % les plus similaires) à partir d'un échantillon de données de formation inclus dans l'audience initiale par la tâche de génération d'audience. Les valeurs vont de 0 à 1, les valeurs les plus élevées indiquent une meilleure audience. Une valeur de rappel approximativement égale au pourcentage maximal de bacs indique que le modèle d'audience est équivalent à une sélection aléatoire.

Nous considérons qu'il s'agit d'un meilleur indicateur d'évaluation que l'exactitude, la précision et les scores F1, car Clean Rooms ML n'a pas correctement étiqueté les utilisateurs réellement négatifs lors de la création de son modèle.

Le *score de pertinence* au niveau du segment est une mesure de similarité avec des valeurs allant de -1 (le moins similaire) à 1 (le plus similaire). Clean Rooms ML calcule un ensemble de scores de pertinence pour différentes tailles de segment afin de vous aider à déterminer la meilleure taille de segment pour vos données. Les scores de pertinence diminuent de façon monotone à mesure que la taille du segment augmente. Ainsi, lorsque la taille du segment augmente, il peut être moins similaire aux données de départ. Lorsque le score de pertinence au niveau du segment atteint 0, le modèle prédit que tous les utilisateurs du segment similaire appartiennent à la même distribution que les données initiales. L'augmentation de la taille de sortie est susceptible d'inclure dans le segment similaire des utilisateurs qui ne proviennent pas de la même distribution que les données de départ.

Les scores de pertinence sont normalisés au sein d'une même campagne et ne doivent pas être utilisés pour comparer les campagnes. Les scores de pertinence ne doivent pas être utilisés comme des preuves provenant d'une source unique pour un résultat commercial, car ils sont influencés par de multiples facteurs complexes en plus de la pertinence, tels que la qualité des stocks, le type d'inventaire, le calendrier des publicités, etc.

Les scores de pertinence ne doivent pas être utilisés pour juger de la qualité de la graine, mais plutôt pour déterminer si elle peut être augmentée ou diminuée. Considérez les exemples suivants :
+ Tous les scores sont positifs : cela indique que le nombre d'utilisateurs prédits comme similaires est supérieur au nombre d'utilisateurs inclus dans le segment similaire. Cela est courant pour les données sur les semences qui font partie d'un vaste marché, comme pour tous ceux qui ont acheté du dentifrice le mois dernier. Nous vous recommandons de consulter des données sur des semences plus petites, comme celles de tous ceux qui ont acheté du dentifrice plus d'une fois au cours du dernier mois.
+ Tous les scores sont négatifs ou négatifs pour la taille de segment de sosie souhaitée : cela indique que Clean Rooms ML prédit qu'il n'y a pas assez d'utilisateurs similaires dans la taille de segment de sosie souhaitée. Cela peut être dû au fait que les données sur les semences sont trop spécifiques ou que le marché est trop petit. Nous recommandons soit d'appliquer moins de filtres aux données sur les semences, soit d'élargir le marché. Par exemple, si les données initiales concernaient des clients ayant acheté une poussette et un siège auto, vous pourriez étendre le marché aux clients ayant acheté plusieurs produits pour bébés.

Les fournisseurs de données de formation déterminent si les scores de pertinence sont exposés et les compartiments dans lesquels les scores de pertinence sont calculés.