Generazione di statistiche delle colonne on demand - AWS Glue

Generazione di statistiche delle colonne on demand

È possibile eseguire attività di statistica delle colonne per l'attività relativa alle tabelle AWS Glue Data Catalog on demand senza una pianificazione prestabilita. Questa opzione è utile per analisi ad hoc o quando le statistiche devono essere calcolate immediatamente.

Segui questi passaggi per generare delle statistiche delle colonne on demand nelle tabelle del Catalogo dati utilizzando la console AWS Glue o la AWS CLI.

AWS Management Console
Per generare statistiche delle colonne utilizzando la console
  1. Accedi alla console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/

  2. Seleziona le tabelle del Catalogo dati.

  3. Scegliere una tabella dall'elenco.

  4. Scegli Genera statistiche nel menu Azioni.

    È possibile anche scegliere le opzioni Genera statistiche e Genera on demand nella scheda Statistiche delle colonne nella sezione inferiore della pagina Tabelle.

  5. Seguire i passaggi da 7 a 11 in Generazione di statistiche a colonne in base a una pianificazione per generare statistiche delle colonne per la tabella.

  6. Nella pagina Genera statistiche, specifica le seguenti opzioni:

    La schermata mostra le opzioni disponibili per generare statistiche delle colonna.
    • Tutte le colonne: scegliere questa opzione per generare statistiche per tutte le colonne della tabella.

    • Colonne selezionate: scegliere questa opzione per generare statistiche per colonne specifiche. È possibile selezionare le colonne dall'elenco a discesa.

    • Ruolo IAM: scegliere Crea un nuovo ruolo IAM con le policy di autorizzazione necessarie per eseguire l'attività di generazione delle statistiche delle colonne. Scegliere Visualizza i dettagli delle autorizzazioni per rivedere le istruzioni della policy. È possibile anche selezionare un ruolo IAM dall'elenco. Per ulteriori informazioni sulle autorizzazioni richieste, consulta Prerequisiti per la generazione delle statistiche delle colonne.

      AWS Glue dispone delle autorizzazioni del ruolo specificate per generare statistiche.

      Per ulteriori informazioni su come fornire ruoli per AWS Glue, consultare Policy basate sull'identità per AWS Glue.

    • (Facoltativo) Scegli quindi una configurazione di sicurezza per abilitare la crittografia dei dati inattivi per i log.

    • Righe di esempio: scegli solo una percentuale specifica di righe dalla tabella per generare statistiche. Il valore predefinito è Tutte le righe. Utilizzate le frecce su e giù per aumentare o diminuire il valore percentuale.

      Nota

      Includi tutte le righe nella tabella per calcolare statistiche accurate. Utilizza righe di esempio per generare statistiche delle colonne solo quando i valori approssimativi sono accettabili.

    Scegliere Genera statistiche per eseguire l'attività.

AWS CLI

Questo comando attiverà l'esecuzione di un'operazione di statistiche delle colonne per la tabella specificata. È necessario fornire il nome del database, il nome della tabella, un ruolo IAM con le autorizzazioni per generare statistiche e, facoltativamente, i nomi delle colonne e una percentuale di dimensione del campione per il calcolo delle statistiche.

aws glue start-column-statistics-task-run \ --database-name 'database_name \ --table-name 'table_name' \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --column-name 'col1','col2' \ --sample-size 10.0

Questo comando avvierà un'attività per generare statistiche delle colonne per la tabella specificata.

Aggiornamento delle statistiche delle colonne on demand

Tenere aggiornare le statistiche delle colonne è fondamentale per permettere all'ottimizzazione delle query di generare piani di esecuzione efficienti, garantendo migliori prestazioni delle query, riduzione del consumo di risorse e migliori prestazioni complessive del sistema. Questo processo è particolarmente importante dopo modifiche significative dei dati, come blocco di dati o modifiche estese, che possono rendere obsolete le statistiche esistenti.

È necessario eseguire esplicitamente l'attività Genera statistiche dalla console AWS Glue per aggiornare le statistiche delle colonne. Il Catalogo dati non aggiorna automaticamente le statistiche.

Se non utilizzi la funzionalità di generazione delle statistiche di AWS Glue nella console, puoi aggiornare manualmente le statistiche delle colonne utilizzando l'operazione API UpdateColumnStatisticsForTable oppure AWS CLI. L'esempio seguente mostra come aggiornare le statistiche delle colonne utilizzando AWS CLI.

aws glue update-column-statistics-for-table --cli-input-json: { "CatalogId": "111122223333", "DatabaseName": "database_name", "TableName": "table_name", "ColumnStatisticsList": [ { "ColumnName": "col1", "ColumnType": "Boolean", "AnalyzedTime": "1970-01-01T00:00:00", "StatisticsData": { "Type": "BOOLEAN", "BooleanColumnStatisticsData": { "NumberOfTrues": 5, "NumberOfFalses": 5, "NumberOfNulls": 0 } } } ] }