Consideraciones para la generación de datos sintéticos

Con AWS Clean Rooms ML, los miembros de la colaboración pueden crear un conjunto de datos sintético que desidentifique de forma irreversible los sujetos del conjunto de datos original de sus conjuntos de datos colectivos para entrenar un modelo de aprendizaje automático personalizado. Al crear la colaboración, debe configurar la información de pago para especificar quién paga por la generación de datos sintéticos. Estos son los pasos básicos para generar un conjunto de datos sintético y entrenar un modelo de aprendizaje automático personalizado:

Un miembro de la colaboración crea una plantilla de análisis que incluye:
- El SQL necesario para definir el conjunto de datos que se va a sintetizar.
- Privacy-related configuraciones utilizadas para garantizar que los datos sintéticos cumplan con los requisitos de cumplimiento de los proveedores de datos.
Una vez que todos los proveedores de datos aprueban la plantilla de análisis, el ejecutor de consultas de colaboración crea un canal de entrada de aprendizaje automático (ML) utilizando la plantilla.
Clean Rooms ML genera el conjunto de datos sintético y verifica que cumpla con los umbrales de privacidad especificados en la plantilla de análisis.
Si se cumplen todos los umbrales, el canal de entrada de ML se rellena con el conjunto de datos sintéticos.
Luego, los clientes pueden usar este canal de entrada de aprendizaje automático para entrenar el modelo de aprendizaje automático personalizado asociado a la colaboración.

Consideraciones importantes:

Los datos sintéticos generados en Clean Rooms ML no eliminan, censuran, ocultan ni sanean ningún valor individual, incluida la información de identificación personal (PII) que se encuentra en el conjunto de datos original. El conjunto de datos sintético se genera mediante el muestreo de valores, pero no de registros completos, del conjunto de datos original.
Si el conjunto de datos original contiene filas similares, es posible que los datos sintéticos contengan filas que parezcan idénticas a las filas del conjunto de datos original.

Preparación del conjunto de datos:

Evite las columnas con una distribución de clases significativamente desequilibrada. Esto es especialmente importante para el valor previsto o la columna «Y». Los desequilibrios extremos reducen la privacidad general del conjunto de datos sintéticos.
Clean Rooms ML no admite la generación de datos sintéticos a partir de datos de series temporales, por lo que es importante mantener las correlaciones entre los registros secuenciales.
Clean Rooms ML no admite la generación de datos sintéticos a partir de texto o datos no estructurados.

Los siguientes tipos de datos son compatibles:

Nombre del tipo de datos
BIGINT
BOOLEANO
CHAR
DATE
DECIMAL
FLOAT
INTEGER
LONG
REAL
SHORT
SMALLINT
TIME
TIMESTAMP_LTZ
TIMESTAMP_NTZ
TINYINT
VARCHAR

Limitaciones:

Para la generación de datos sintéticos, el número máximo de columnas predictivas es una.
Si la columna de destino es categórica, el número máximo de categorías en el conjunto de datos original es 100.
En el conjunto de datos original, el número de filas debe estar entre 1500 y 2,5 millones y el número máximo de columnas es 1000. Para valores no nulos en la columna de destino, el número mínimo de filas es 1000.

Métricas de privacidad:

Clean Rooms ML proporciona una puntuación de privacidad que mide el grado de protección de los datos sintéticos generados contra los ataques de inferencia de miembros (MIA). El servicio retiene el 5% de los datos originales del proceso de síntesis para calcular esta puntuación.
Los puntajes cercanos al 50% se consideran buenos; los puntajes más altos indican una menor protección contra los MIAs. Los puntajes significativamente inferiores al 50% son poco frecuentes y pueden deberse a la falta de representación de los patrones de los datos originales en los datos sintetizados.

Modelo personalizado descendente:

Los datos sintéticos generados en Clean Rooms ML son los más adecuados para entrenar modelos de clasificación binaria y modelos de clasificación multiclase con hasta cinco clases.
El entrenamiento de modelos de regresión con datos sintéticos generados en el aprendizaje automático de salas limpias puede provocar una baja precisión del modelo, medida mediante el error cuadrático medio (RMSE).

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Privacy-enhanced generación de conjuntos de datos sintéticos

Crear la colaboración y unirse a ella