View a markdown version of this page

Gerenciar a programação para geração de estatísticas de colunas - AWS Glue

Gerenciar a programação para geração de estatísticas de colunas

Você pode gerenciar as operações de programação, como atualizar, iniciar, interromper e excluir programações para a geração de estatísticas de colunas no AWS Glue. É possível usar o console do AWS Glue, a AWS CLI ou operações de API de estatísticas de colunas do AWS Glue para realizar essas tarefas.

Atualizar a programação da geração de estatísticas de colunas

É possível atualizar a programação para acionar a tarefa de geração de estatísticas de colunas após ela ser criada. É possível usar o console do AWS Glue ou a AWS CLI ou executar a operação UpdateColumnStatisticsTaskSettings para atualizar a programação para uma tabela. É possível modificar os parâmetros de uma programação existente, como o tipo de programação (sob demanda ou programada) e outros parâmetros opcionais.

Console de gerenciamento da AWS
Para atualizar as configurações para uma tarefa de estatísticas de colunas
  1. Faça login no console do AWS Glue em https://console.aws.amazon.com/glue/.

  2. Escolha a tabela que você deseja atualizar na lista de tabelas.

  3. Na seção inferior da página de detalhes da tabela, escolha Estatísticas de colunas.

  4. Em Ações, escolha Editar para atualizar a programação.

  5. Faça as alterações desejadas na programação e escolha Salvar.

AWS CLI

Se você não estiver usando o recurso de geração de estatísticas do AWS Glue no console, poderá atualizar manualmente a programação usando o comando update-column-statistics-task-settings. O exemplo a seguir mostra como excluir estatísticas de colunas usando a AWS CLI.

aws glue update-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name' \ --role arn:aws:iam::123456789012:role/stats_role \ --schedule 'cron(0 0-5 16 * * ?)' \ --column-name-list 'col-1' \ --sample-size '20.0' \ --catalog-id '123456789012'\ --security-configuration 'test-security'

Interromper a programação de geração de estatísticas de colunas

Se não precisar mais das estatísticas incrementais, você poderá interromper a geração agendada para economizar recursos e custos. Pausar a programação não afeta as estatísticas geradas anteriormente. Você pode retomar a programação conforme sua conveniência.

Console de gerenciamento da AWS
Para interromper a programação de uma tarefa de geração de estatísticas de colunas
  1. No console do AWS Glue, escolha Tabelas em Catálogo de Dados.

  2. Selecione uma tabela com estatísticas de colunas.

  3. Na página Detalhes da tabela, escolha Estatísticas da coluna.

  4. Em Ações, escolha Geração programada, Pausar.

  5. Escolha Pausar para confirmar.

AWS CLI

Para interromper a programação de execução de uma tarefa de estatísticas de colunas usando a AWS CLI, é possível usar o seguinte comando:

aws glue stop-column-statistics-task-run-schedule \ --database-name ''database_name' \ --table-name 'table_name'

Substitua database_name e table_name pelos nomes reais do banco de dados e da tabela para os quais você deseja interromper a programação de execução da tarefa de estatísticas de colunas.

Retomar a programação de geração de estatísticas de colunas

Se você pausou a programação de geração de estatísticas, o AWS Glue permite retomá-lo conforme sua conveniência. Você pode retomar a programação usando o console do AWS Glue, a AWS CLI ou a operação StartColumnStatisticsTaskRunSchedule.

Console de gerenciamento da AWS
Para retomar a programação de geração de estatísticas de colunas
  1. No console do AWS Glue, escolha Tabelas em Catálogo de Dados.

  2. Selecione uma tabela com estatísticas de colunas.

  3. Na página Detalhes da tabela, escolha Estatísticas da coluna.

  4. Em Ações, escolha Geração programada e escolha Retomar.

  5. Escolha Retomar para confirmar.

AWS CLI

Substitua database_name e table_name pelos nomes reais do banco de dados e da tabela para os quais você deseja interromper a programação de execução da tarefa de estatísticas de colunas.

aws glue start-column-statistics-task-run-schedule \ --database-name 'database_name' \ --table-name 'table_name'

Excluir programação de geração de estatísticas de colunas

Embora a manutenção de estatísticas atualizadas seja geralmente recomendada para otimizar a performance da consulta, há casos de uso específicos em que a remoção da programação de geração automática pode ser benéfica.

  • Se os dados permanecerem relativamente estáticos, as estatísticas de colunas existentes poderão permanecer precisas por um longo período, reduzindo a necessidade de atualizações frequentes. Excluir a programação pode evitar o consumo desnecessário de recursos e a sobrecarga associada à regeneração de estatísticas em dados inalterados.

  • Quando o controle manual sobre a geração de estatísticas é preferido. Ao excluir a programação automática, os administradores podem atualizar seletivamente as estatísticas de colunas em intervalos específicos ou após alterações significativas nos dados, alinhando o processo com suas estratégias de manutenção e necessidades de alocação de recursos.

Console de gerenciamento da AWS
Para excluir a programação de geração de estatísticas de colunas
  1. No console do AWS Glue, escolha Tabelas em Catálogo de Dados.

  2. Selecione uma tabela com estatísticas de colunas.

  3. Na página Detalhes da tabela, escolha Estatísticas da coluna.

  4. Em Ações, escolha Geração programada, Excluir.

  5. Escolha Excluir para confirmar.

AWS CLI

Substitua database_name e table_name pelos nomes reais do banco de dados e da tabela para os quais você deseja interromper a programação de execução da tarefa de estatísticas de colunas.

Você pode excluir estatísticas de colunas usando a operação da API DeleteColumnStatisticsTaskSettings ou a AWS CLI. Os exemplos a seguir mostram como excluir a programação de geração de estatísticas de colunas usando a AWS Command Line Interface (AWS CLI).

aws glue delete-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name'