

# Otimizar a performance da consulta usando estatísticas de coluna
<a name="column-statistics"></a>

Você pode calcular estatísticas em nível de coluna para tabelas do AWS Glue Data Catalog em formatos de dados como Parquet, ORC, JSON, ION, CSV e XML sem precisar configurar pipelines de dados adicionais. As estatísticas de colunas ajudam você a entender os perfis de dados obtendo insights sobre os valores em uma coluna. 

O Catálogo de Dados possibilita a geração de estatísticas para valores de colunas, como valor mínimo, valor máximo, total de valores nulos, total de valores distintos, comprimento médio dos valores e ocorrências totais de valores reais. Os serviços analíticos da AWS, como o Amazon Redshift e o Amazon Athena, podem usar essas estatísticas de colunas para gerar planos de execução de consultas e escolher o plano ideal para melhorar a performance da consulta.

Há três cenários para a geração de estatísticas de colunas: 

 **Auto**   
O AWS Glue oferece suporte à geração automática de estatísticas de colunas no nível do catálogo para que ele possa gerar automaticamente estatísticas para novas tabelas no AWS Glue Data Catalog. 

**Programado**  
O AWS Glue oferece suporte à programação da geração de estatísticas de coluna para que ela possa ser executada automaticamente em uma programação recorrente.   
Com o cálculo de estatísticas programado, a tarefa de estatísticas de coluna atualiza as estatísticas gerais em nível de tabela, como mínimos, máximos e média, com as novas estatísticas, fornecendo aos mecanismos de consulta estatísticas precisas e atualizadas para otimizar a execução de consultas. 

**Sob demanda**  
Use essa opção para gerar estatísticas de coluna sob demanda sempre que necessário. Isso é útil para análises ad hoc ou quando as estatísticas precisam ser calculadas imediatamente. 

É possível configurar para executar a tarefa de geração de estatísticas de coluna usando o console do AWS Glue, a AWS CLI ou a API do AWS Glue. Quando você inicia o processo, o AWS Glue inicia um trabalho do Spark em segundo plano e atualiza os metadados da tabela AWS Glue no Catálogo de Dados. Você pode visualizar as estatísticas da coluna usando o console do AWS Glue ou a AWS CLI ou chamando a operação da API [GetColumnStatisticsForTable](https://docs.aws.amazon.com/glue/latest/webapi/API_GetColumnStatisticsForTable.html).

**nota**  
Se você estiver usando as permissões do Lake Formation para controlar o acesso à tabela, o perfil assumido pela tarefa de estatísticas da coluna exigirá acesso total à tabela para gerar estatísticas.

 O vídeo a seguir demonstra como aprimorar a performance da consulta usando estatísticas de colunas. 

[![AWS Videos](http://img.youtube.com/vi/zUHEXJdHUxs?si=HjyhpoALR6RXJz2i/0.jpg)](http://www.youtube.com/watch?v=zUHEXJdHUxs?si=HjyhpoALR6RXJz2i)


**Topics**
+ [Pré-requisitos para gerar estatísticas de colunas](column-stats-prereqs.md)
+ [Geração automática de estatísticas de colunas](auto-column-stats-generation.md)
+ [Gerar estatísticas de colunas em uma programação](generate-column-stats.md)
+ [Gerar estatísticas de colunas sob demanda](column-stats-on-demand.md)
+ [Visualizar estatísticas de colunas](view-column-stats.md)
+ [Visualizar as execuções de tarefas de estatísticas de colunas](view-stats-run.md)
+ [Interromper a execução da tarefa de estatísticas de coluna](stop-stats-run.md)
+ [Excluir estatísticas de colunas](delete-column-stats.md)
+ [Considerações e limitações](column-stats-notes.md)