Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Generazione di set di dati sintetici ottimizzati per la privacy
Un set di dati sintetico ha proprietà statistiche simili al set di dati originale su cui si basa, ma non contiene le osservazioni del mondo reale presenti nel set di dati originale. Utilizzando set di dati sintetici ottimizzati per la privacy, puoi sbloccare nuovi casi d'uso di addestramento basato su modelli di machine learning (ML) che in precedenza impedivano la tutela della privacy dei dati. Quando si crea un canale di input ML, è possibile generare dati sintetici per proteggere le informazioni sensibili durante l'addestramento dei modelli ML.
Quando si crea un modello con dati sintetici, è necessario:
-
Richiede che l'output del modello sia sintetico
-
Classificate le colonne dello schema di output come numeriche o categoriali
-
Personalizza i dati sintetici in base alle esigenze organizzative
-
Modifica le impostazioni sulla privacy:
-
Imposta il livello di privacy (epsilon)
-
Configura la soglia di privacy
-
avvertimento
La generazione sintetica di dati protegge dall'inferire attributi individuali se nel set di dati originale sono presenti individui specifici o se sono presenti gli attributi di apprendimento di tali individui. Tuttavia, non impedisce che i valori letterali del set di dati originale, comprese le informazioni di identificazione personale (PII), compaiano nel set di dati sintetico.
Consigliamo di evitare valori nel set di dati di input associati a un solo interessato, poiché potrebbero identificare nuovamente un interessato. Ad esempio, se un solo utente vive in un codice postale, la presenza di quel codice postale nel set di dati sintetico confermerebbe che l'utente era nel set di dati originale. Per mitigare questo rischio è possibile utilizzare tecniche come il tronco di valori ad alta precisione o la sostituzione di cataloghi non comuni con altri. Queste trasformazioni possono far parte della query utilizzata per creare il canale di input ML.
Per ulteriori informazioni su come generare dati sintetici per l'addestramento di modelli personalizzati, vedereCreazione di un modello di analisi SQL.
I modelli di analisi con output sintetici possono essere utilizzati solo per creare canali di input ML. Per ulteriori informazioni, consulta Creazione di un canale di input ML in AWS Clean Rooms ML.