Geração de conjuntos de dados sintéticos com privacidade aprimorada - AWS Clean Rooms

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Geração de conjuntos de dados sintéticos com privacidade aprimorada

Um conjunto de dados sintético tem propriedades estatísticas semelhantes ao conjunto de dados original em que se baseia, mas não contém as observações do mundo real presentes no conjunto de dados original. Ao usar conjuntos de dados sintéticos com privacidade aprimorada, você pode desbloquear novos casos de uso de treinamento de modelos de aprendizado de máquina (ML) que as preocupações com a privacidade de dados evitavam anteriormente. Ao criar um canal de entrada de ML, você pode gerar dados sintéticos para proteger informações confidenciais enquanto treina modelos de ML.

Ao criar um modelo com dados sintéticos, você deve:

  • Exigir que a saída do modelo seja sintética

  • Classifique as colunas do esquema de saída como numéricas ou categóricas

  • Personalize dados sintéticos com base nas necessidades organizacionais

  • Ajuste as configurações de privacidade:

    • Defina o nível de privacidade (épsilon)

    • Configurar limite de privacidade

Atenção

A geração de dados sintéticos protege contra a inferência de atributos individuais, independentemente de indivíduos específicos estarem presentes no conjunto de dados original ou de atributos de aprendizagem desses indivíduos. No entanto, isso não impede que valores literais do conjunto de dados original, incluindo informações de identificação pessoal (PII), apareçam no conjunto de dados sintético.

Recomendamos evitar valores no conjunto de dados de entrada associados a apenas um titular de dados, pois eles podem reidentificar um titular de dados. Por exemplo, se apenas um usuário residir em um CEP, a presença desse CEP no conjunto de dados sintético confirmaria que o usuário estava no conjunto de dados original. Técnicas como truncar valores de alta precisão ou substituir catálogos incomuns por outros podem ser usadas para mitigar esse risco. Essas transformações podem fazer parte da consulta usada para criar o canal de entrada de ML.

Para obter mais informações sobre como gerar dados sintéticos para treinamento de modelos personalizados, consulteCriando um modelo de análise SQL.

Modelos de análise com saídas sintéticas só podem ser usados para criar canais de entrada de ML. Para obter mais informações, consulte Criação de um canal de entrada de ML no AWS Clean Rooms ML.