Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Création d’un modèle d’analyse SQL
<a name="create-sql-analysis-template"></a>

**Conditions préalables**

 Avant de créer un modèle d'analyse SQL, vous devez disposer des éléments suivants :
+ Une AWS Clean Rooms collaboration active
+ Accès à au moins une table configurée dans la collaboration

  Pour plus d'informations sur la configuration des tables dans AWS Clean Rooms, consultez[Création d'une table configurée dans AWS Clean Rooms](create-configured-table.md).
+ Autorisations pour créer des modèles d'analyse
+ Connaissances de base de la syntaxe des requêtes SQL

La procédure suivante décrit le processus de création d'un modèle d'analyse SQL à l'aide de la [AWS Clean Rooms console](https://console.aws.amazon.com/cleanrooms/home).

Pour plus d'informations sur la création d'un modèle d'analyse SQL à l'aide du AWS SDKs, consultez le manuel de [référence des AWS Clean Rooms API](https://docs.aws.amazon.com/clean-rooms/latest/apireference/Welcome.html).

**Pour créer un modèle d'analyse SQL**

1. Connectez-vous à la console AWS Management Console et ouvrez-la avec la [AWS Clean Rooms console](https://console.aws.amazon.com/cleanrooms/home) Compte AWS qui fonctionnera en tant que créateur de collaboration.

1. Dans le volet de navigation de gauche, sélectionnez **Collaborations**.

1. Choisissez la collaboration.

1. Dans l'onglet **Modèles**, accédez à la section **Modèles d'analyse que vous avez créés**.

1. Choisissez **Créer un modèle d'analyse**.

1. Sur la page **Créer un modèle d'analyse**, pour **plus de détails**, 

   1. Entrez un **nom** pour le modèle d'analyse.

   1. (Facultatif) Entrez une **description**.

   1. Pour **Format**, laissez l'option **SQL** sélectionnée.

1. Pour **les tables**, consultez les tables configurées associées à la collaboration.

1. Pour **la définition**,

   1. Entrez la définition du modèle d'analyse.

   1. Choisissez **Importer depuis** pour importer une définition.

   1. (*Facultatif*) Spécifiez un paramètre dans l'éditeur SQL en saisissant deux points (`:`) devant le nom du paramètre.

      Par exemple : 

      `WHERE table1.date + :date_period > table1.date`

1. Si vous avez déjà ajouté des paramètres, sous **Paramètres — facultatif**, pour chaque **nom de paramètre**, choisissez le **type** et la **valeur par défaut** (facultatif).

1. Pour les **données synthétiques**, si vous souhaitez générer des données synthétiques pour l'entraînement du modèle, cochez la case **Exiger que la sortie du modèle d'analyse soit synthétique**.

   Pour plus d'informations, voir Génération de jeux de données [synthétiques améliorée en termes de confidentialité](synthetic-data-generation.md).

   1. Pour **la classification par colonne**, choisissez une **colonne** dans la liste déroulante. Au moins cinq colonnes sont requises.

      1. Choisissez une **classification** dans la liste déroulante. Cela permet d'identifier le type de données pour chaque colonne.

         Les types de classification incluent :
         + **Numérique** — Valeurs numériques continues telles que des mesures ou des dénombrements
         + **Catégoriel** — Valeurs ou catégories discrètes telles que des étiquettes ou des types

      1. Pour supprimer une colonne, sélectionnez **Supprimer**.

      1. Pour ajouter une autre colonne, sélectionnez **Ajouter une autre colonne**. Choisissez la **colonne** et la **classification** dans les listes déroulantes.

      1. Pour **Valeur prédictive**, choisissez une **colonne** dans la liste déroulante. Il s'agit de la colonne que le modèle personnalisé utilise pour la prédiction après avoir été entraîné sur le jeu de données synthétique.

   1. **Les paramètres avancés** vous permettent de définir le **niveau de confidentialité** et le **seuil de confidentialité**. Ajustez les paramètres en fonction de vos besoins.

      1. Pour le **niveau de confidentialité**, entrez une valeur epsilon pour déterminer le niveau de bruit ajouté par le modèle synthétique afin de protéger la confidentialité de votre ensemble de données généré. La valeur doit être comprise entre 0,0001 et 10.
        + Des valeurs plus faibles ajoutent du bruit, ce qui renforce la protection de la confidentialité, mais réduit potentiellement l'utilité du modèle personnalisé en aval formé à partir de ces données.
        + Des valeurs supérieures ajoutent moins de bruit, ce qui renforce la précision tout en réduisant potentiellement la protection de la vie privée.

        Pour le **seuil de confidentialité**, entrez la probabilité maximale autorisée qu'une attaque par inférence d'appartenance puisse identifier les membres du jeu de données d'origine. La valeur doit être comprise entre 50,0 et 100.
        + Des scores de 50 % indiquent qu'une attaque par inférence d'appartenance ne permet pas de distinguer les membres des non-membres mieux qu'une estimation aléatoire.
        + Pour aucune limite de confidentialité, entrez 100 %.

        La configuration que vous choisissez dépend de votre cas d’utilisation spécifique et de vos exigences en matière de confidentialité. Si le seuil de confidentialité est dépassé, la création du canal d'entrée ML échoue et vous ne pouvez pas utiliser le jeu de données synthétique pour entraîner un modèle.
**Avertissement**  
La génération de données synthétiques empêche de déduire des attributs individuels, que des individus spécifiques soient présents dans l'ensemble de données d'origine ou que des attributs d'apprentissage de ces individus soient présents. Cependant, cela n'empêche pas les valeurs littérales de l'ensemble de données d'origine, y compris les informations personnelles identifiables (PII), d'apparaître dans l'ensemble de données synthétique.  
Nous recommandons d'éviter dans le jeu de données d'entrée les valeurs associées à une seule personne concernée, car elles peuvent permettre de réidentifier une personne concernée. Par exemple, si un seul utilisateur vit dans un code postal, la présence de ce code postal dans le jeu de données synthétique confirmera que cet utilisateur figurait dans le jeu de données d'origine. Des techniques telles que la troncation de valeurs de haute précision ou le remplacement de catalogues peu courants par *d'autres* peuvent être utilisées pour atténuer ce risque. Ces transformations peuvent faire partie de la requête utilisée pour créer le canal d'entrée ML.

1. Si vous souhaitez activer les **balises** pour la ressource, choisissez **Ajouter une nouvelle balise**, puis entrez la paire ****clé/valeur****.

1. Choisissez **Créer**.

1. Vous êtes maintenant prêt à informer le membre de votre collaboration qu'il peut [réviser un modèle d'analyse](review-analysis-template.md). (Facultatif si vous souhaitez interroger vos propres données.)