Gerar estatísticas de colunas em uma programação - AWS Glue

Gerar estatísticas de colunas em uma programação

Siga estas etapas para configurar um cronograma para gerar estatísticas no AWS Glue Data Catalog usando o console do , o AWS Glue, a AWS CLI ou a operação StartColumnStatisticsTaskRun.

Console
Para gerar estatísticas de colunas usando o console
  1. Faça login no console do AWS Glue em https://console.aws.amazon.com/glue/.

  2. Escolha uma tabela do Catálogo de Dados.

  3. Escolha uma tabela na lista.

  4. Escolha a guia Estatísticas de colunas na seção inferior da página Tabelas.

  5. Você também pode escolher Gerar em uma programação em Estatísticas de colunas em Ações.

  6. Na página Gerar estatísticas em uma programação, configure uma programação recorrente para executar a tarefa de estatísticas de colunas escolhendo a frequência e a hora de início. É possível definir a frequência como hora em hora, diária ou semanal ou ainda definir uma expressão cron para especificar a programação.

    Uma expressão cron é uma string que representa um padrão de programação que consiste em 6 campos separados por espaços: * * * * * <minuto> <hora> <dia do mês> <mês> <dia da semana> <ano> Por exemplo, para executar uma tarefa todos os dias à meia-noite, a expressão cron seria: 0 0 * * ? *

    Para obter mais informações, consulte Expressões cron.

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
  7. Em seguida, escolha a opção de coluna para gerar estatísticas.

    • Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.

    • Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.

  8. Crie um perfil do IAM ou escolha um existente que tenha permissões para gerar estatísticas. O AWS Glueassume esse perfil para gerar estatísticas de colunas.

    Uma abordagem mais rápida é permitir que o console do AWS Glue crie um perfil para você. O perfil por ele criado destina-se especificamente à geração de estatísticas de colunas e inclui a política AWSGlueServiceRole gerenciada pela AWS e mais a política em linha necessária para a fonte de dados especificada.

    Se você especificar um perfil existente para a geração de estatísticas de colunas, certifique-se de que ele inclua a política AWSGlueServiceRole ou equivalente (ou uma versão dessa política com um escopo reduzido), além das políticas em linha necessárias.

  9. (Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.

  10. (Opcional) É possível escolher um tamanho de amostra indicando somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.

    Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.

  11. Escolha Gerar estatísticas para executar a tarefa de geração de estatísticas de colunas.

AWS CLI

O exemplo de AWS CLI a seguir pode ser usado para criar uma programação de geração de estatísticas de colunas. Os parâmetros obrigatórios são database-name, table-name e role, enquanto os parâmetros opcionais são schedule, column-name-list, catalog-id, sample-size e security-configuration.

aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-name table_name \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0 ' \ --security-configuration 'test-security'

Também é possível pode gerar estatísticas de coluna chamando a operação StartColumnStatisticsTaskRun.