Considérations relatives à la génération de données synthétiques

Avec AWS Clean Rooms ML, les membres de la collaboration peuvent créer un ensemble de données synthétique qui désidentifie de manière irréversible les sujets du jeu de données d'origine de leurs ensembles de données collectifs afin de créer un modèle d'apprentissage automatique personnalisé. Lors de la création de la collaboration, vous devez configurer les informations de paiement pour spécifier qui paie pour la génération de données synthétiques. Voici les étapes de haut niveau pour générer un ensemble de données synthétique et entraîner un modèle d'apprentissage automatique personnalisé :

Un membre de la collaboration crée un modèle d'analyse qui inclut :
- Le code SQL nécessaire pour définir l'ensemble de données à synthétiser.
- Privacy-related configurations utilisées pour garantir que les données synthétiques répondent aux exigences de conformité des fournisseurs de données.
Une fois que tous les fournisseurs de données ont approuvé le modèle d'analyse, le lanceur de requêtes collaboratif crée un canal d'entrée d'apprentissage automatique (ML) à l'aide du modèle.
Clean Rooms ML génère le jeu de données synthétique et vérifie qu'il respecte les seuils de confidentialité spécifiés dans le modèle d'analyse.
Si tous les seuils sont satisfaits, le canal d'entrée ML est rempli avec le jeu de données synthétique.
Les clients peuvent ensuite utiliser ce canal d'entrée ML pour entraîner le modèle de ML personnalisé associé à la collaboration.

Considérations importantes :

Les données synthétiques générées dans Clean Rooms ML ne suppriment, ne suppriment, ne masquent ni ne nettoient aucune valeur individuelle, y compris les informations personnelles identifiables (PII) trouvées dans le jeu de données d'origine. Le jeu de données synthétique est généré en échantillonnant des valeurs, mais pas des enregistrements complets, à partir du jeu de données d'origine.
Si le jeu de données d'origine contient des lignes similaires, il est possible que les données synthétiques contiennent des lignes identiques à celles du jeu de données d'origine.

Préparation du jeu de données :

Évitez les colonnes dont la distribution des classes est significativement déséquilibrée. Ceci est particulièrement important pour la valeur prédite ou la colonne « Y ». Les déséquilibres extrêmes réduisent la confidentialité globale de l'ensemble de données synthétique.
Clean Rooms ML ne prend pas en charge la génération de données synthétiques à partir de séries chronologiques pour lesquelles il est important de maintenir des corrélations entre les enregistrements séquentiels.
Clean Rooms ML ne prend pas en charge la génération de données synthétiques à partir de texte ou de données non structurées.

Les types de données suivants sont pris en charge :

Nom du type de données
BIGINT
BOOLEAN
CHAR
DATE
DECIMAL
FLOAT
INTEGER
LONG
REAL
SHORT
SMALLINT
TIME
TIMESTAMP_LTZ
TIMESTAMP_NTZ
TINYINT
VARCHAR

Limites:

Pour la génération de données synthétiques, le nombre maximum de colonnes prédictives est d'une.
Si la colonne cible est catégorique, le nombre maximum de catégories dans le jeu de données d'origine est de 100.
Dans le jeu de données d'origine, le nombre de lignes doit être compris entre 1 500 et 2,5 millions et le nombre maximum de colonnes est de 1 000. Pour les valeurs non nulles de la colonne cible, le nombre minimum de lignes est de 1 000.

Mesures de confidentialité :

Clean Rooms ML fournit un score de confidentialité qui mesure le niveau de protection des données synthétiques générées contre les attaques par inférence d'adhésion (MIA). Le service utilise 5 % des données originales issues du processus de synthèse pour calculer ce score.
Des scores proches de 50 % sont considérés comme bons ; des scores élevés indiquent une protection moindre contre les MIA. Les scores significativement inférieurs à 50 % sont rares et peuvent être dus à la non-représentation des modèles issus des données d'origine dans les données synthétisées.

Modèle personnalisé en aval :

Les données synthétiques générées dans Clean Rooms ML conviennent parfaitement à l'entraînement de modèles de classification binaires et de modèles de classification à classes multiples comportant jusqu'à cinq classes.
L'entraînement de modèles de régression utilisant des données synthétiques générées dans Clean Rooms ML peut entraîner une faible précision du modèle, telle que mesurée par le Root Mean Square Error (RMSE).

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Privacy-enhanced génération de jeux de données synthétiques

Création et adhésion à la collaboration