Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Génération de jeux de données synthétiques garantissant une meilleure confidentialité
Un jeu de données synthétique possède des propriétés statistiques similaires à celles du jeu de données d'origine sur lequel il est basé, mais ne contient pas les observations du monde réel présentes dans le jeu de données d'origine. En utilisant des ensembles de données synthétiques optimisés pour la confidentialité, vous pouvez découvrir de nouveaux cas d'utilisation de modèles d'apprentissage automatique (ML) que les problèmes de confidentialité des données évitaient auparavant. Lorsque vous créez un canal d'entrée ML, vous pouvez générer des données synthétiques pour protéger les informations sensibles lors de l'entraînement des modèles de ML.
Lorsque vous créez un modèle avec des données synthétiques, vous devez :
-
Exiger que la sortie du modèle soit synthétique
-
Classer les colonnes du schéma de sortie en tant que colonnes numériques ou catégoriques
-
Personnalisez les données synthétiques en fonction des besoins de l'organisation
-
Ajustez les paramètres de confidentialité :
-
Définir le niveau de confidentialité (epsilon)
-
Configurer le seuil de confidentialité
-
Avertissement
La génération de données synthétiques empêche de déduire des attributs individuels, que des individus spécifiques soient présents dans l'ensemble de données d'origine ou que des attributs d'apprentissage de ces individus soient présents. Cependant, cela n'empêche pas les valeurs littérales de l'ensemble de données d'origine, y compris les informations personnelles identifiables (PII), d'apparaître dans l'ensemble de données synthétique.
Nous recommandons d'éviter dans le jeu de données d'entrée les valeurs associées à une seule personne concernée, car elles peuvent permettre de réidentifier une personne concernée. Par exemple, si un seul utilisateur vit dans un code postal, la présence de ce code postal dans le jeu de données synthétique confirmera que cet utilisateur figurait dans le jeu de données d'origine. Des techniques telles que la troncation de valeurs de haute précision ou le remplacement de catalogues peu courants par d'autres peuvent être utilisées pour atténuer ce risque. Ces transformations peuvent faire partie de la requête utilisée pour créer le canal d'entrée ML.
Pour plus d'informations sur la façon de générer des données synthétiques pour l'entraînement de modèles personnalisés, consultezCréation d'un modèle d'analyse SQL.
Les modèles d'analyse avec des sorties synthétiques ne peuvent être utilisés que pour créer des canaux d'entrée ML. Pour de plus amples informations, veuillez consulter Création d'un canal d'entrée ML dans AWS Clean Rooms ML.