As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Considerações para geração de dados sintéticos
Com o AWS Clean Rooms ML, os membros da colaboração podem criar um conjunto de dados sintético que desidentifica irreversivelmente os sujeitos do conjunto de dados original de seus conjuntos de dados coletivos para treinar um modelo de aprendizado de máquina personalizado. Ao criar a colaboração, você deve configurar as informações de pagamento para especificar quem paga pela geração de dados sintéticos. Aqui estão as etapas de alto nível para gerar um conjunto de dados sintético e treinar um modelo personalizado de aprendizado de máquina:
-
Um membro da colaboração cria um modelo de análise que inclui:
-
O SQL precisava definir o conjunto de dados a ser sintetizado.
-
Configurações relacionadas à privacidade usadas para garantir que os dados sintéticos atendam aos requisitos de conformidade dos provedores de dados.
-
-
Depois que todos os provedores de dados aprovam o modelo de análise, o executor de consultas de colaboração cria um canal de entrada de aprendizado de máquina (ML) usando o modelo.
-
O Clean Rooms ML gera o conjunto de dados sintético e verifica se ele atende aos limites de privacidade especificados no modelo de análise.
-
Se todos os limites forem satisfeitos, o canal de entrada de ML será preenchido com o conjunto de dados sintético.
-
Os clientes podem então usar esse canal de entrada de ML para treinar o modelo de ML personalizado associado à colaboração.
Considerações importantes:
-
Os dados sintéticos gerados no Clean Rooms ML não removem, editam, ofuscam ou higienizam nenhum valor individual, incluindo informações de identificação pessoal (PII) encontradas no conjunto de dados original. O conjunto de dados sintético é gerado por valores de amostragem, mas não por registros inteiros, do conjunto de dados original.
-
Se o conjunto de dados original contiver linhas semelhantes, é possível que os dados sintéticos contenham linhas que pareçam idênticas às linhas do conjunto de dados original.
Preparação do conjunto de dados:
-
Evite colunas com uma distribuição de classes significativamente desequilibrada. Isso é especialmente importante para o valor previsto ou a coluna “Y”. Desequilíbrios extremos reduzem a privacidade geral do conjunto de dados sintéticos.
-
O Clean Rooms ML não oferece suporte à geração de dados sintéticos a partir de dados de séries temporais, nos quais é importante manter correlações entre registros sequenciais.
-
O Clean Rooms ML não oferece suporte à geração de dados sintéticos a partir de texto ou dados não estruturados.
-
Os seguintes tipos de dados são compatíveis:
Nome do tipo de dados BIGINT BOOLEAN CHAR DATE DECIMAL FLOAT INTEGER LONG REAL SHORT SMALLINT TIME TIMESTAMP_LTZ TIMESTAMP_NTZ TINYINT VARCHAR
Limitações:
-
Para geração de dados sintéticos, o número máximo de colunas preditivas é uma.
-
Se a coluna de destino for categórica, o número máximo de categorias no conjunto de dados original será 100.
-
No conjunto de dados original, o número de linhas deve estar entre 1.500 e 2,5 milhões e o número máximo de colunas é 1.000. Para valores não nulos na coluna de destino, o número mínimo de linhas é 1.000.
Métricas de privacidade:
-
O Clean Rooms ML fornece uma pontuação de privacidade que mede a proteção dos dados sintéticos gerados contra ataques de inferência de membros (MIAs). O serviço retém 5% dos dados originais do processo de sintetização para calcular essa pontuação.
-
Pontuações próximas a 50% são consideradas boas; pontuações mais altas indicam menos proteção contra MIAs. Pontuações significativamente abaixo de 50% são raras e podem ser devidas à não representação dos padrões dos dados originais nos dados sintetizados.
Modelo personalizado downstream:
-
Os dados sintéticos gerados no Clean Rooms ML são mais adequados para treinar modelos de classificação binária e modelos de classificação multiclasse com até cinco classes.
-
Treinar modelos de regressão usando dados sintéticos gerados em Clean Rooms ML pode resultar em baixa precisão do modelo, conforme medido pelo Root Mean Square Error (RMSE).