Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Generazione di statistiche delle colonne on demand
È possibile eseguire l'attività di statistica delle colonne per l'attività AWS Glue Data Catalog tabelle su richiesta senza una pianificazione prestabilita. Questa opzione è utile per analisi ad hoc o quando le statistiche devono essere calcolate immediatamente.
Segui questi passaggi per generare statistiche sulle colonne su richiesta per le tabelle del Data Catalog utilizzando la AWS Glue console o AWS CLI.
- Console di gestione AWS
-
Per generare statistiche delle colonne utilizzando la console
-
Accedi alla AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/.
-
Seleziona le tabelle del Catalogo dati.
-
Scegliere una tabella dall'elenco.
-
Scegli Genera statistiche nel menu Azioni.
È possibile anche scegliere le opzioni Genera statistiche e Genera on demand nella scheda Statistiche delle colonne nella sezione inferiore della pagina Tabelle.
Seguire i passaggi da 7 a 11 in Generazione di statistiche a colonne in base a una pianificazione per generare statistiche delle colonne per la tabella.
-
Nella pagina Genera statistiche, specifica le seguenti opzioni:
-
Tutte le colonne: scegliere questa opzione per generare statistiche per tutte le colonne della tabella.
-
Colonne selezionate: scegliere questa opzione per generare statistiche per colonne specifiche. È possibile selezionare le colonne dall'elenco a discesa.
-
Ruolo IAM: scegliere Crea un nuovo ruolo IAM con le policy di autorizzazione necessarie per eseguire l'attività di generazione delle statistiche delle colonne. Scegliere Visualizza i dettagli delle autorizzazioni per rivedere le istruzioni della policy. È possibile anche selezionare un ruolo IAM dall'elenco. Per ulteriori informazioni sulle autorizzazioni richieste, consulta Prerequisiti per la generazione delle statistiche delle colonne.
AWS Glue assume le autorizzazioni del ruolo specificato per generare statistiche.
Per ulteriori informazioni sulla fornitura di ruoli per AWS Glue, consulta Politiche basate sull'identità per. AWS Glue.
-
(Facoltativo) Scegli quindi una configurazione di sicurezza per abilitare la crittografia dei dati inattivi per i log.
-
Righe di esempio: scegli solo una percentuale specifica di righe dalla tabella per generare statistiche. Il valore predefinito è Tutte le righe. Utilizzate le frecce su e giù per aumentare o diminuire il valore percentuale.
Includi tutte le righe nella tabella per calcolare statistiche accurate. Utilizza righe di esempio per generare statistiche delle colonne solo quando i valori approssimativi sono accettabili.
Scegliere Genera statistiche per eseguire l'attività.
- AWS CLI
-
Questo comando attiverà l'esecuzione di un'operazione di statistiche delle colonne per la tabella specificata. È necessario fornire il nome del database, il nome della tabella, un ruolo IAM con le autorizzazioni per generare statistiche e, facoltativamente, i nomi delle colonne e una percentuale di dimensione del campione per il calcolo delle statistiche.
aws glue start-column-statistics-task-run \
--database-name 'database_name \
--table-name 'table_name' \
--role 'arn:aws:iam::123456789012:role/stats-role' \
--column-name 'col1','col2' \
--sample-size 10.0
Questo comando avvierà un'attività per generare statistiche delle colonne per la tabella specificata.
Aggiornamento delle statistiche delle colonne on demand
Il mantenimento delle statistiche sulle up-to-date colonne è fondamentale per l'ottimizzazione delle query per generare piani di esecuzione efficienti, garantendo migliori prestazioni delle query, riduzione del consumo di risorse e migliori prestazioni complessive del sistema. Questo processo è particolarmente importante dopo modifiche significative dei dati, come blocco di dati o modifiche estese, che possono rendere obsolete le statistiche esistenti.
È necessario eseguire in modo esplicito l'attività Genera statistiche dalla AWS Glue console per aggiornare le statistiche delle colonne. Il Catalogo dati non aggiorna automaticamente le statistiche.
Se non si utilizza AWS Glue la funzionalità di generazione delle statistiche nella console, è possibile aggiornare manualmente le statistiche delle colonne utilizzando l'operazione UpdateColumnStatisticsForTableAPI o. AWS CLI L'esempio seguente mostra come aggiornare le statistiche delle colonne utilizzando AWS CLI.
aws glue update-column-statistics-for-table --cli-input-json:
{
"CatalogId": "111122223333",
"DatabaseName": "database_name",
"TableName": "table_name",
"ColumnStatisticsList": [
{
"ColumnName": "col1",
"ColumnType": "Boolean",
"AnalyzedTime": "1970-01-01T00:00:00",
"StatisticsData": {
"Type": "BOOLEAN",
"BooleanColumnStatisticsData": {
"NumberOfTrues": 5,
"NumberOfFalses": 5,
"NumberOfNulls": 0
}
}
}
]
}