Gerar estatísticas de colunas em uma programação
Siga estas etapas para configurar um cronograma para gerar estatísticas no AWS Glue Data Catalog usando o console do , o AWS Glue, a AWS CLI ou a operação StartColumnStatisticsTaskRun.
- Console
-
Para gerar estatísticas de colunas usando o console
-
Faça login no console do AWS Glue em https://console.aws.amazon.com/glue/
. -
Escolha uma tabela do Catálogo de Dados.
-
Escolha uma tabela na lista.
-
Escolha a guia Estatísticas de colunas na seção inferior da página Tabelas.
-
Você também pode escolher Gerar em uma programação em Estatísticas de colunas em Ações.
-
Na página Gerar estatísticas em uma programação, configure uma programação recorrente para executar a tarefa de estatísticas de colunas escolhendo a frequência e a hora de início. É possível definir a frequência como hora em hora, diária ou semanal ou ainda definir uma expressão cron para especificar a programação.
Uma expressão cron é uma string que representa um padrão de programação que consiste em 6 campos separados por espaços: * * * * * <minuto> <hora> <dia do mês> <mês> <dia da semana> <ano> Por exemplo, para executar uma tarefa todos os dias à meia-noite, a expressão cron seria: 0 0 * * ? *
Para obter mais informações, consulte Expressões cron.
Em seguida, escolha a opção de coluna para gerar estatísticas.
-
Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.
-
Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.
-
Crie um perfil do IAM ou escolha um existente que tenha permissões para gerar estatísticas. O AWS Glueassume esse perfil para gerar estatísticas de colunas.
Uma abordagem mais rápida é permitir que o console do AWS Glue crie um perfil para você. O perfil por ele criado destina-se especificamente à geração de estatísticas de colunas e inclui a política
AWSGlueServiceRole
gerenciada pela AWS e mais a política em linha necessária para a fonte de dados especificada.Se você especificar um perfil existente para a geração de estatísticas de colunas, certifique-se de que ele inclua a política
AWSGlueServiceRole
ou equivalente (ou uma versão dessa política com um escopo reduzido), além das políticas em linha necessárias.-
(Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.
-
(Opcional) É possível escolher um tamanho de amostra indicando somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.
Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.
-
Escolha Gerar estatísticas para executar a tarefa de geração de estatísticas de colunas.
-
- AWS CLI
-
O exemplo de AWS CLI a seguir pode ser usado para criar uma programação de geração de estatísticas de colunas. Os parâmetros obrigatórios são database-name, table-name e role, enquanto os parâmetros opcionais são schedule, column-name-list, catalog-id, sample-size e security-configuration.
aws glue create-column-statistics-task-settings \ --database-name '
database_name
' \ --table-nametable_name
\ --role 'arn:aws:iam::123456789012
:role/stats-role
' \ --schedule 'cron(0 0-5 14 * * ?)
' \ --column-name-list 'col-1
' \ --catalog-id '123456789012
' \ --sample-size '10.0
' \ --security-configuration 'test-security
'Também é possível pode gerar estatísticas de coluna chamando a operação StartColumnStatisticsTaskRun.