Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Considérations relatives à la génération de données synthétiques
Avec AWS Clean Rooms ML, les membres de la collaboration peuvent créer un ensemble de données synthétique qui désidentifie de manière irréversible les sujets du jeu de données d'origine de leurs ensembles de données collectifs afin de créer un modèle d'apprentissage automatique personnalisé. Lors de la création de la collaboration, vous devez configurer les informations de paiement pour spécifier qui paie pour la génération de données synthétiques. Voici les étapes de haut niveau pour générer un ensemble de données synthétique et entraîner un modèle d'apprentissage automatique personnalisé :
-
Un membre de la collaboration crée un modèle d'analyse qui inclut :
-
Le code SQL nécessaire pour définir l'ensemble de données à synthétiser.
-
Configurations liées à la confidentialité utilisées pour garantir que les données synthétiques répondent aux exigences de conformité des fournisseurs de données.
-
-
Une fois que tous les fournisseurs de données ont approuvé le modèle d'analyse, le lanceur de requêtes collaboratif crée un canal d'entrée d'apprentissage automatique (ML) à l'aide du modèle.
-
Clean Rooms ML génère le jeu de données synthétique et vérifie qu'il respecte les seuils de confidentialité spécifiés dans le modèle d'analyse.
-
Si tous les seuils sont satisfaits, le canal d'entrée ML est rempli avec le jeu de données synthétique.
-
Les clients peuvent ensuite utiliser ce canal de saisie ML pour entraîner le modèle de ML personnalisé associé à la collaboration.
Considérations importantes :
-
Les données synthétiques générées dans Clean Rooms ML ne suppriment, ne suppriment, ne masquent ni ne nettoient aucune valeur individuelle, y compris les informations personnelles identifiables (PII) trouvées dans le jeu de données d'origine. Le jeu de données synthétique est généré en échantillonnant des valeurs, mais pas des enregistrements complets, à partir du jeu de données d'origine.
-
Si le jeu de données d'origine contient des lignes similaires, il est possible que les données synthétiques contiennent des lignes identiques à celles du jeu de données d'origine.
Préparation du jeu de données :
-
Évitez les colonnes dont la distribution des classes est significativement déséquilibrée. Ceci est particulièrement important pour la valeur prédite ou la colonne « Y ». Les déséquilibres extrêmes réduisent la confidentialité globale de l'ensemble de données synthétique.
-
Clean Rooms ML ne prend pas en charge la génération de données synthétiques à partir de séries chronologiques pour lesquelles il est important de maintenir des corrélations entre les enregistrements séquentiels.
-
Clean Rooms ML ne prend pas en charge la génération de données synthétiques à partir de texte ou de données non structurées.
-
Les types de données suivants sont pris en charge :
Nom du type de données BIGINT BOOLEAN CHAR DATE DECIMAL FLOAT INTEGER LONG REAL SHORT SMALLINT TIME TIMESTAMP_LTZ TIMESTAMP_NTZ TINYINT VARCHAR
Limites:
-
Pour la génération de données synthétiques, le nombre maximum de colonnes prédictives est d'une.
-
Si la colonne cible est catégorique, le nombre maximum de catégories dans le jeu de données d'origine est de 100.
-
Dans le jeu de données d'origine, le nombre de lignes doit être compris entre 1 500 et 2,5 millions et le nombre maximum de colonnes est de 1 000. Pour les valeurs non nulles de la colonne cible, le nombre minimum de lignes est de 1 000.
Indicateurs de confidentialité :
-
Clean Rooms ML fournit un score de confidentialité qui mesure le niveau de protection des données synthétiques générées contre les attaques par inférence d'adhésion (MIAs). Le service utilise 5 % des données originales issues du processus de synthèse pour calculer ce score.
-
Des scores proches de 50 % sont considérés comme bons ; des scores élevés indiquent une protection moindre contre MIAs. Les scores significativement inférieurs à 50 % sont rares et peuvent être dus à la non-représentation des modèles issus des données d'origine dans les données synthétisées.
Modèle personnalisé en aval :
-
Les données synthétiques générées dans Clean Rooms ML conviennent parfaitement à l'entraînement de modèles de classification binaires et de modèles de classification à classes multiples comportant jusqu'à cinq classes.
-
L'entraînement de modèles de régression utilisant des données synthétiques générées dans Clean Rooms ML peut entraîner une faible précision du modèle, telle que mesurée par l'erreur quadratique moyenne (RMSE).