Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Considerazioni sulla generazione di dati sintetici
Con AWS Clean Rooms ML, i membri della collaborazione possono creare un set di dati sintetico che deidentifica in modo irreversibile i soggetti del set di dati originale dai set di dati collettivi per addestrare un modello di apprendimento automatico personalizzato. Durante la creazione della collaborazione, devi configurare le informazioni di pagamento per specificare chi paga per la generazione di dati sintetici. Ecco i passaggi di alto livello per generare un set di dati sintetico e addestrare un modello di apprendimento automatico personalizzato:
-
Un membro della collaborazione crea un modello di analisi che include:
-
L'SQL necessario per definire il set di dati da sintetizzare.
-
Configurazioni relative alla privacy utilizzate per garantire che i dati sintetici soddisfino i requisiti di conformità dei fornitori di dati.
-
-
Una volta che tutti i fornitori di dati hanno approvato il modello di analisi, Collaboration Query Runner crea un canale di input di machine learning (ML) utilizzando il modello.
-
Clean Rooms ML genera il set di dati sintetico e verifica che soddisfi le soglie di privacy specificate nel modello di analisi.
-
Se tutte le soglie sono soddisfatte, il canale di input ML viene popolato con il set di dati sintetici.
-
I clienti possono quindi utilizzare questo canale di input ML per addestrare il modello ML personalizzato associato alla collaborazione.
Considerazioni importanti:
-
I dati sintetici generati in Clean Rooms ML non rimuovono, oscurano, offuscano o eliminano alcun valore individuale, incluse le informazioni di identificazione personale (PII) presenti nel set di dati originale. Il set di dati sintetico viene generato dai valori di campionamento, ma non da interi record, dal set di dati originale.
-
Se il set di dati originale contiene righe simili, è possibile che i dati sintetici contengano righe che sembrano identiche alle righe del set di dati originale.
Preparazione del set di dati:
-
Evita le colonne con una distribuzione delle classi significativamente squilibrata. Ciò è particolarmente importante per il valore previsto o la colonna «Y». Gli squilibri estremi riducono la privacy complessiva del set di dati sintetici.
-
Clean Rooms ML non supporta la generazione di dati sintetici da dati di serie temporali laddove è importante mantenere le correlazioni tra i record sequenziali.
-
Clean Rooms ML non supporta la generazione di dati sintetici da testo o dati non strutturati.
-
Sono supportati i tipi di dati seguenti:
Nome del tipo di dati BIGINT BOOLEAN CHAR DATE DECIMAL FLOAT INTEGER LONG REAL SHORT SMALLINT TIME TIMESTAMP_LTZ TIMESTAMP_NTZ TINYINT VARCHAR
Restrizioni:
-
Per la generazione di dati sintetici, il numero massimo di colonne predittive è una.
-
Se la colonna di destinazione è categorica, il numero massimo di categorie nel set di dati originale è 100.
-
Nel set di dati originale, il numero di righe deve essere compreso tra 1.500 e 2,5 milioni e il numero massimo di colonne è 1.000. Per i valori non nulli nella colonna di destinazione, il numero minimo di righe è 1.000.
Metriche sulla privacy:
-
Clean Rooms ML fornisce un punteggio di privacy che misura la protezione dei dati sintetici generati dagli attacchi di inferenza dei membri ()MIAs. Il servizio trattiene il 5% dei dati originali del processo di sintesi per calcolare questo punteggio.
-
I punteggi vicini al 50% sono considerati buoni; punteggi più alti indicano una minore protezione contro. MIAs I punteggi significativamente inferiori al 50% sono rari e possono essere dovuti alla mancata rappresentazione dei modelli dei dati originali nei dati sintetizzati.
Modello personalizzato Downstream:
-
I dati sintetici generati in Clean Rooms ML sono più adatti per l'addestramento di modelli di classificazione binaria e modelli di classificazione multiclasse con un massimo di cinque classi.
-
I modelli di regressione dell'addestramento che utilizzano dati sintetici generati in Clean Rooms ML possono comportare una bassa precisione del modello, come misurato mediante Root Mean Square Error (RMSE).