Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Generazione di statistiche a colonne in base a una pianificazione
Segui questi passaggi per configurare una pianificazione per la generazione di statistiche a colonne in AWS Glue Data Catalog utilizzando la console AWS Glue, AWS CLI o l'operazione StartColumnStatisticsTaskRun.
- Console
-
Per generare statistiche delle colonne utilizzando la console
-
Accedi alla console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/
-
Seleziona le tabelle del Catalogo dati.
-
Scegliere una tabella dall'elenco.
-
Scegli la scheda Statistiche delle colonne nella sezione inferiore della pagina Tabelle.
-
Puoi anche scegliere Genera in base alla pianificazione nelle Statistiche delle colonne da Azioni.
-
Nella pagina Genera statistiche in base alla pianificazione, configura una pianificazione ricorrente per l'esecuzione dell'attività di statistica a colonne scegliendo la frequenza e l'ora di inizio. Puoi scegliere la frequenza oraria, giornaliera, settimanale o definire un'espressione Cron per specificare la pianificazione.
Un'espressione Cron è una stringa che rappresenta uno schema di pianificazione, composto da 6 campi separati da spazi: * * * * * * <minute> <hour> <day of month> <month> <day of week> <year> Ad esempio, per eseguire un'attività ogni giorno a mezzanotte, l'espressione Cron sarebbe: 0 0 * *? *
Per ulteriori informazioni consulta Espressioni Cron.
Quindi, scegli l'opzione della colonna per generare statistiche.
-
Tutte le colonne: scegli questa opzione per generare statistiche per tutte le colonne della tabella.
-
Colonne selezionate: scegli questa opzione per generare statistiche per colonne specifiche. È possibile selezionare le colonne dall'elenco a discesa.
-
Scegli un ruolo IAM o creare un ruolo esistente con autorizzazioni per generare statistiche. AWS Glue assume questo ruolo per generare statistiche delle colonne.
Un approccio più rapido consiste nel lasciare che la console AWS Glue crei un ruolo per te. Il ruolo che crea è specifico per la generazione di statistiche delle colonne e include la policy gestita
AWSGlueServiceRoleAWS oltre alla policy inline richiesta per l'origine dati specificata.Se si specifica un ruolo esistente per la generazione di statistiche delle colonne, bisogna assicurarsi che includa la policy
AWSGlueServiceRoleo equivalente (o una versione ridotta di questa policy), oltre alle policy inline richieste.-
(Facoltativo) Scegli quindi una configurazione di sicurezza per abilitare la crittografia dei dati inattivi per i log.
-
(Facoltativo) È possibile scegliere una dimensione del campione indicando solo una percentuale specifica di righe dalla tabella per generare statistiche. Il valore predefinito è Tutte le righe. Utilizzate le frecce su e giù per aumentare o diminuire il valore percentuale.
Includi tutte le righe nella tabella per calcolare statistiche accurate. Utilizza righe di esempio per generare statistiche delle colonne solo quando i valori approssimativi sono accettabili.
-
Scegli Genera statistiche per eseguire l'attività di generazione delle statistiche sulle colonne.
-
- AWS CLI
-
È possibile utilizzare l'esempio AWS CLI seguente per creare una pianificazione per la generazione di statistiche sulle colonne. Il nome del database, il nome della tabella e il ruolo sono parametri obbligatori, mentre i parametri facoltativi sono schedule, column-name-list, catalog-id, sample-size e security-configuration.
aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-nametable_name\ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0' \ --security-configuration 'test-security'Puoi generare statistiche sulle colonne anche chiamando l'operazione StartColumnStatisticsTaskRun.