Generazione automatica delle statistiche delle colonne
La generazione automatica delle statistiche delle colonne consente di pianificare e calcolare automaticamente le statistiche su nuove tabelle nel AWS Glue Data Catalog. Quando abiliti la generazione automatica di statistiche, il Catalogo dati rileva nuove tabelle con formati di dati specifici come Parquet, JSON, CSV, XML, ORC, ION e Apache Iceberg, insieme ai rispettivi percorsi bucket individuali. Con una configurazione del catalogo una tantum, il catalogo dati genera statistiche per queste tabelle.
Gli amministratori di data Lake possono configurare la generazione delle statistiche selezionando il catalogo predefinito nella console Lake Formation e abilitando le statistiche delle tabelle utilizzando l'opzione Optimization configuration. Quando crei nuove tabelle o aggiorni quelle esistenti nel Catalogo dati, quest'ultimo raccoglie il numero di valori distinti (NDV) per le tabelle Apache Iceberg e le statistiche aggiuntive come il numero di valori nulli, la lunghezza massima, minima e media per altri formati di file supportati su base settimanale.
Se hai configurato la generazione delle statistiche a livello di tabella o se hai precedentemente eliminato le impostazioni di generazione delle statistiche per una tabella, tali impostazioni specifiche hanno la precedenza sulle impostazioni predefinite del catalogo per la generazione automatica delle statistiche delle colonne.
L'attività di generazione automatica delle statistiche analizza il 50% dei record nelle tabelle per calcolare le statistiche. La generazione automatica delle statistiche delle colonne garantisce che il Catalogo dati mantenga metriche settimanali che possono essere utilizzate da motori di query come Amazon Athena e Amazon Redshift Spectrum per migliorare le prestazioni delle query e favorire potenziali risparmi sui costi. Consente di pianificare la generazione delle statistiche utilizzando le API o la console AWS Glue, fornendo un processo automatizzato senza interventi manuali.