Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d'un modèle d'analyse SQL
Prérequis
Avant de créer un modèle d'analyse SQL, vous devez disposer des éléments suivants :
-
Une AWS Clean Rooms collaboration active
-
Accès à au moins une table configurée dans la collaboration
Pour plus d'informations sur la configuration des tables dans AWS Clean Rooms, consultezCréation d'une table configurée dans AWS Clean Rooms.
-
Autorisations pour créer des modèles d'analyse
-
Connaissances de base de la syntaxe des requêtes SQL
La procédure suivante décrit le processus de création d'un modèle d'analyse SQL à l'aide de la AWS Clean Rooms console
Pour plus d'informations sur la création d'un modèle d'analyse SQL à l'aide du AWS SDKs, consultez le manuel de référence des AWS Clean Rooms API.
Pour créer un modèle d'analyse SQL
-
Connectez-vous à la console AWS Management Console et ouvrez-la avec la AWS Clean Rooms console
Compte AWS qui fonctionnera en tant que créateur de collaboration. -
Dans le volet de navigation de gauche, sélectionnez Collaborations.
-
Choisissez la collaboration.
-
Dans l'onglet Modèles, accédez à la section Modèles d'analyse que vous avez créés.
-
Choisissez Créer un modèle d'analyse.
-
Sur la page Créer un modèle d'analyse, pour plus de détails,
-
Entrez un nom pour le modèle d'analyse.
-
(Facultatif) Entrez une description.
-
Pour Format, laissez l'option SQL sélectionnée.
-
-
Pour les tables, consultez les tables configurées associées à la collaboration.
-
Pour la définition,
-
Entrez la définition du modèle d'analyse.
-
Choisissez Importer depuis pour importer une définition.
-
(Facultatif) Spécifiez un paramètre dans l'éditeur SQL en saisissant deux points (
:) devant le nom du paramètre.Par exemple :
WHERE table1.date + :date_period > table1.date
-
-
Si vous avez déjà ajouté des paramètres, sous Paramètres — facultatif, pour chaque nom de paramètre, choisissez le type et la valeur par défaut (facultatif).
-
Pour les données synthétiques, si vous souhaitez générer des données synthétiques pour l'entraînement du modèle, cochez la case Exiger que la sortie du modèle d'analyse soit synthétique.
Pour plus d'informations, voir Génération de jeux de données synthétiques améliorée en termes de confidentialité.
-
Pour la classification par colonne, choisissez une colonne dans la liste déroulante. Au moins cinq colonnes sont requises.
-
Choisissez une classification dans la liste déroulante. Cela permet d'identifier le type de données pour chaque colonne.
Les types de classification incluent :
-
Numérique — Valeurs numériques continues telles que des mesures ou des dénombrements
-
Catégoriel — Valeurs ou catégories discrètes telles que des étiquettes ou des types
-
-
Pour supprimer une colonne, sélectionnez Supprimer.
-
Pour ajouter une autre colonne, sélectionnez Ajouter une autre colonne. Choisissez la colonne et la classification dans les listes déroulantes.
-
Pour Valeur prédictive, choisissez une colonne dans la liste déroulante. Il s'agit de la colonne que le modèle personnalisé utilise pour la prédiction après avoir été entraîné sur le jeu de données synthétique.
-
-
Les paramètres avancés vous permettent de définir le niveau de confidentialité et le seuil de confidentialité. Ajustez les paramètres en fonction de vos besoins.
-
Pour le niveau de confidentialité, entrez une valeur epsilon pour déterminer le niveau de bruit ajouté par le modèle synthétique afin de protéger la confidentialité de votre ensemble de données généré. La valeur doit être comprise entre 0,0001 et 10.
-
Des valeurs plus faibles ajoutent du bruit, ce qui renforce la protection de la confidentialité, mais réduit potentiellement l'utilité du modèle personnalisé en aval formé à partir de ces données.
-
Des valeurs plus élevées génèrent moins de bruit, ce qui améliore la précision, mais réduit potentiellement la protection de la vie privée.
Pour le seuil de confidentialité, entrez la probabilité maximale autorisée qu'une attaque par inférence d'appartenance puisse identifier les membres du jeu de données d'origine. La valeur doit être comprise entre 50,0 et 100.
-
Des scores de 50 % indiquent qu'une attaque par inférence d'appartenance ne permet pas de distinguer les membres des non-membres mieux qu'une estimation aléatoire.
-
Pour aucune limite de confidentialité, entrez 100 %.
La valeur optimale dépend de votre cas d'utilisation spécifique et de vos exigences en matière de confidentialité. Si le seuil de confidentialité est dépassé, la création du canal d'entrée ML échoue et vous ne pouvez pas utiliser le jeu de données synthétique pour entraîner un modèle.
-
-
Avertissement
La génération de données synthétiques empêche de déduire des attributs individuels, que des individus spécifiques soient présents dans l'ensemble de données d'origine ou que des attributs d'apprentissage de ces individus soient présents. Cependant, cela n'empêche pas les valeurs littérales de l'ensemble de données d'origine, y compris les informations personnelles identifiables (PII), d'apparaître dans l'ensemble de données synthétique.
Nous recommandons d'éviter dans le jeu de données d'entrée les valeurs associées à une seule personne concernée, car elles peuvent permettre de réidentifier une personne concernée. Par exemple, si un seul utilisateur vit dans un code postal, la présence de ce code postal dans le jeu de données synthétique confirmera que cet utilisateur figurait dans le jeu de données d'origine. Des techniques telles que la troncation de valeurs de haute précision ou le remplacement de catalogues peu courants par d'autres peuvent être utilisées pour atténuer ce risque. Ces transformations peuvent faire partie de la requête utilisée pour créer le canal d'entrée ML.
-
-
Si vous souhaitez activer les balises pour la ressource, choisissez Ajouter une nouvelle balise, puis entrez la paire clé/valeur.
-
Choisissez Créer.
-
Vous êtes maintenant prêt à informer le membre de votre collaboration qu'il peut réviser un modèle d'analyse. (Facultatif si vous souhaitez interroger vos propres données.)