View a markdown version of this page

Métricas do Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Métricas do Slurm no PCS AWS

AWS O PCS suporta o recurso de métricas do Slurm, que expõe dados de cluster em tempo real por meio de endpoints HTTP compatíveis com o Prometheus e outros sistemas de monitoramento. Para obter detalhes, incluindo impacto no desempenho e considerações de segurança, consulte o Guia de métricas na documentação do Slurm.

Pré-requisitos

Antes de ativar as métricas do Slurm, verifique se você tem:

  • Versão do cluster: Slurm versão 25.11 ou superior.

  • Grupo de segurança: regras que permitem o tráfego HTTP na porta 6817 a partir das fontes desejadas.

Habilite o endpoint de métricas

Defina as seguintes configurações personalizadas do Slurm em nível de cluster:

  • MetricsType— É necessário especificar um plug-in de métricas compatível, comometrics/openmetrics.

  • CommunicationParameters— Deve incluirenable_http.

    Importante

    A ativação enable_http expõe um endpoint HTTP não autenticado. Qualquer pessoa com acesso de rede à porta 6817 pode ler métricas de cluster, trabalho e nó. Use as regras do grupo de segurança para restringir o acesso somente a fontes confiáveis.

  • PrivateDataNão deve ser configurado.

Para obter informações adicionais sobre as configurações personalizadas do Slurm, consulte. Definindo configurações personalizadas do Slurm no PCS AWS

Use o endpoint de métricas

Consulte o endpoint de métricas de um host com acesso de rede ao controlador:

curl http://controller-ip:6817/metrics

Para obter informações adicionais sobre as métricas disponíveis e a configuração de scraping, consulte o Guia de métricas na documentação do Slurm.