Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Creazione di un modello di analisi SQL
Prerequisiti
Prima di creare un modello di analisi SQL, è necessario disporre di:
-
Una AWS Clean Rooms collaborazione attiva
-
Accesso ad almeno una tabella configurata nella collaborazione
Per informazioni sulla configurazione delle tabelle in AWS Clean Rooms, vedereCreazione di una tabella configurata in AWS Clean Rooms.
-
Autorizzazioni per creare modelli di analisi
-
Conoscenza di base della sintassi delle query SQL
La procedura seguente descrive il processo di creazione di un modello di analisi SQL utilizzando la AWS Clean Rooms console
Per informazioni su come creare un modello di analisi SQL utilizzando AWS SDKs, consulta l'AWS Clean Rooms API Reference.
Per creare un modello di analisi SQL
-
Accedi Console di gestione AWS e apri la AWS Clean Rooms console
con il programma Account AWS che fungerà da creatore della collaborazione. -
Nel riquadro di navigazione a sinistra, scegli Collaborazioni.
-
Scegli la collaborazione.
-
Nella scheda Modelli, vai alla sezione Modelli di analisi creati da te.
-
Scegli Crea modello di analisi.
-
Nella pagina Crea modello di analisi, per Dettagli,
-
Immettere un nome per il modello di analisi.
-
(Facoltativo) Inserite una descrizione.
-
Per Format, lasciate selezionata l'opzione SQL.
-
-
Per le tabelle, visualizza le tabelle configurate associate alla collaborazione.
-
Per definizione,
-
Immettete la definizione per il modello di analisi.
-
Scegliete Importa da per importare una definizione.
-
(Facoltativo) Specificate un parametro nell'editor SQL inserendo i due punti (
:) davanti al nome del parametro.Ad esempio:
WHERE table1.date + :date_period > table1.date
-
-
Se avete aggiunto dei parametri in precedenza, in Parametri - opzionale, per ogni nome di parametro, scegliete il tipo e il valore predefinito (opzionale).
-
Per Dati sintetici, se desideri generare dati sintetici per l'addestramento del modello, seleziona la casella di controllo Richiedi che l'output del modello di analisi sia sintetico.
Per ulteriori informazioni, consulta Generazione di set di dati sintetici ottimizzati per la privacy.
-
Per la classificazione delle colonne, scegli una colonna dall'elenco a discesa. Sono necessarie almeno cinque colonne.
-
Scegli una classificazione dall'elenco a discesa. Questo identifica il tipo di dati per ogni colonna.
I tipi di classificazione includono:
-
Numerico: valori numerici continui come misurazioni o conteggi
-
Categoriale: valori o categorie discreti come etichette o tipi
-
-
Per rimuovere una colonna, seleziona Rimuovi.
-
Per aggiungere un'altra colonna, seleziona Aggiungi un'altra colonna. Scegli la colonna e la classificazione dagli elenchi a discesa.
-
Per Valore predittivo, scegli una colonna dall'elenco a discesa. Questa è la colonna che il modello personalizzato utilizza per la previsione dopo essere stato addestrato sul set di dati sintetico.
-
-
Le impostazioni avanzate consentono di impostare il livello di privacy e la soglia di privacy. Regola le impostazioni in base alle tue esigenze.
-
Per il livello di privacy, inserisci un valore epsilon per determinare la quantità di rumore aggiunta dal modello sintetico per proteggere la privacy nel set di dati generato. Il valore deve essere compreso tra 0,0001 e 10.
-
I valori più bassi aggiungono ulteriore rumore, garantendo una maggiore protezione della privacy ma potenzialmente riducendo l'utilità del modello personalizzato a valle addestrato su questi dati.
-
Valori più alti aggiungono meno rumore, garantendo una maggiore precisione ma potenzialmente riducendo la protezione della privacy.
Per Soglia di privacy, inserisci la probabilità massima consentita che un attacco di inferenza dell'appartenenza possa identificare i membri del set di dati originale. Il valore deve essere compreso tra 50,0 e 100.
-
Un punteggio del 50% indica che un attacco basato sull'inferenza dell'appartenenza non è in grado di distinguere con successo i membri dai non membri meglio di un'ipotesi casuale.
-
Per non avere limiti di privacy, inserisci 100%.
Il valore ottimale dipende dal caso d'uso specifico e dai requisiti di privacy. Se la soglia di privacy viene superata, la creazione del canale di input ML non riesce e non è possibile utilizzare il set di dati sintetico per addestrare un modello.
-
-
avvertimento
La generazione di dati sintetici protegge dall'inferire attributi individuali se nel set di dati originale sono presenti individui specifici o se sono presenti gli attributi di apprendimento di tali individui. Tuttavia, non impedisce che i valori letterali del set di dati originale, comprese le informazioni di identificazione personale (PII), compaiano nel set di dati sintetico.
Consigliamo di evitare valori nel set di dati di input associati a un solo interessato, poiché potrebbero identificare nuovamente un interessato. Ad esempio, se un solo utente vive in un codice postale, la presenza di quel codice postale nel set di dati sintetico confermerebbe che l'utente era nel set di dati originale. Per mitigare questo rischio è possibile utilizzare tecniche come il tronco di valori ad alta precisione o la sostituzione di cataloghi non comuni con altri. Queste trasformazioni possono far parte della query utilizzata per creare il canale di input ML.
-
-
Se desideri abilitare i tag per la risorsa, scegli Aggiungi nuovo tag e inserisci la coppia Chiave e Valore.
-
Scegli Create (Crea).
-
Ora sei pronto per informare il tuo collaboratore che può esaminare un modello di analisi. (Facoltativo se desideri interrogare i tuoi dati).