Generación de conjuntos de datos sintéticos con mayor privacidad - AWS Clean Rooms

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Generación de conjuntos de datos sintéticos con mayor privacidad

Un conjunto de datos sintético tiene propiedades estadísticas similares al conjunto de datos original en el que se basa, pero no contiene las observaciones del mundo real presentes en el conjunto de datos original. Al utilizar conjuntos de datos sintéticos que mejoran la privacidad, puedes descubrir nuevos casos de uso del entrenamiento con modelos de aprendizaje automático (ML) que antes se impedían por cuestiones de privacidad de datos. Al crear un canal de entrada de aprendizaje automático, puede generar datos sintéticos para proteger la información confidencial mientras entrena modelos de aprendizaje automático.

Al crear una plantilla con datos sintéticos, debe:

  • Exija que el resultado de la plantilla sea sintético

  • Clasifique las columnas del esquema de salida como numéricas o categóricas

  • Personalice los datos sintéticos en función de las necesidades de la organización

  • Ajusta la configuración de privacidad:

    • Establece el nivel de privacidad (épsilon)

    • Configure el umbral de privacidad

aviso

La generación de datos sintéticos evita la inferencia de atributos individuales, ya sea que haya personas específicas presentes en el conjunto de datos original o que estén presentes los atributos de aprendizaje de esas personas. Sin embargo, no impide que los valores literales del conjunto de datos original, incluida la información de identificación personal (PII), aparezcan en el conjunto de datos sintético.

Recomendamos evitar los valores en el conjunto de datos de entrada que estén asociados a un solo sujeto de datos, ya que pueden volver a identificar a un sujeto de datos. Por ejemplo, si solo un usuario vive en un código postal, la presencia de ese código postal en el conjunto de datos sintético confirmaría que el usuario estaba en el conjunto de datos original. Para mitigar este riesgo, se pueden utilizar técnicas como truncar valores de alta precisión o reemplazar catálogos poco comunes por otros. Estas transformaciones pueden formar parte de la consulta utilizada para crear el canal de entrada de ML.

Para obtener más información sobre cómo generar datos sintéticos para el entrenamiento de modelos personalizados, consulteCreación de una plantilla de análisis SQL.

Las plantillas de análisis con salidas sintéticas solo se pueden utilizar para crear canales de entrada de aprendizaje automático. Para obtener más información, consulte Creación de un canal de entrada de ML en AWS Clean Rooms ML.