Considerações para geração de dados sintéticos

Com o AWS Clean Rooms ML, os membros da colaboração podem criar um conjunto de dados sintético que desidentifica irreversivelmente os sujeitos do conjunto de dados original de seus conjuntos de dados coletivos para treinar um modelo de aprendizado de máquina personalizado. Ao criar a colaboração, você deve configurar as informações de pagamento para especificar quem paga pela geração de dados sintéticos. Aqui estão as etapas de alto nível para gerar um conjunto de dados sintético e treinar um modelo personalizado de aprendizado de máquina:

Um membro da colaboração cria um modelo de análise que inclui:
- O SQL precisava definir o conjunto de dados a ser sintetizado.
- Privacy-related configurações usadas para garantir que os dados sintéticos atendam aos requisitos de conformidade dos provedores de dados.
Depois que todos os provedores de dados aprovam o modelo de análise, o executor de consultas de colaboração cria um canal de entrada de aprendizado de máquina (ML) usando o modelo.
O Clean Rooms ML gera o conjunto de dados sintético e verifica se ele atende aos limites de privacidade especificados no modelo de análise.
Se todos os limites forem satisfeitos, o canal de entrada de ML será preenchido com o conjunto de dados sintético.
Os clientes podem então usar esse canal de entrada de ML para treinar o modelo de ML personalizado associado à colaboração.

Considerações importantes:

Os dados sintéticos gerados no Clean Rooms ML não removem, editam, ofuscam ou higienizam nenhum valor individual, incluindo informações de identificação pessoal (PII) encontradas no conjunto de dados original. O conjunto de dados sintético é gerado por valores de amostragem, mas não por registros inteiros, do conjunto de dados original.
Se o conjunto de dados original contiver linhas semelhantes, é possível que os dados sintéticos contenham linhas que pareçam idênticas às linhas do conjunto de dados original.

Preparação do conjunto de dados:

Evite colunas com uma distribuição de classes significativamente desequilibrada. Isso é especialmente importante para o valor previsto ou a coluna “Y”. Desequilíbrios extremos reduzem a privacidade geral do conjunto de dados sintéticos.
O Clean Rooms ML não oferece suporte à geração de dados sintéticos a partir de dados de séries temporais, nos quais é importante manter correlações entre registros sequenciais.
O Clean Rooms ML não oferece suporte à geração de dados sintéticos a partir de texto ou dados não estruturados.

Os seguintes tipos de dados são compatíveis:

Nome do tipo de dados
BIGINT
BOOLEAN
CHAR
DATE
DECIMAL
FLOAT
INTEGER
LONG
REAL
SHORT
SMALLINT
TIME
TIMESTAMP_LTZ
TIMESTAMP_NTZ
TINYINT
VARCHAR

Limitações:

Para geração de dados sintéticos, o número máximo de colunas preditivas é uma.
Se a coluna de destino for categórica, o número máximo de categorias no conjunto de dados original será 100.
No conjunto de dados original, o número de linhas deve estar entre 1.500 e 2,5 milhões e o número máximo de colunas é 1.000. Para valores não nulos na coluna de destino, o número mínimo de linhas é 1.000.

Métricas de privacidade:

O Clean Rooms ML fornece uma pontuação de privacidade que mede a proteção dos dados sintéticos gerados contra ataques de inferência de membros (MIAs). O serviço retém 5% dos dados originais do processo de sintetização para calcular essa pontuação.
Pontuações próximas a 50% são consideradas boas; pontuações mais altas indicam menor proteção contra MIAs. Pontuações significativamente abaixo de 50% são raras e podem ser devidas à não representação dos padrões dos dados originais nos dados sintetizados.

Modelo personalizado downstream:

Os dados sintéticos gerados no Clean Rooms ML são mais adequados para treinar modelos de classificação binária e modelos de classificação multiclasse com até cinco classes.
Treinar modelos de regressão usando dados sintéticos gerados em Clean Rooms ML pode resultar em baixa precisão do modelo, medida pelo Root Mean Square Error (RMSE).

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Privacy-enhanced geração de conjuntos de dados sintéticos

Criando e participando da colaboração