As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Métricas do Slurm no PCS AWS
AWS O PCS suporta o recurso de métricas do Slurm, que expõe dados de cluster em tempo real por meio de endpoints HTTP compatíveis com o Prometheus e outros sistemas de monitoramento. Para obter detalhes, incluindo impacto no desempenho e considerações de segurança, consulte o Guia de métricas na documentação
Pré-requisitos
Antes de ativar as métricas do Slurm, verifique se você tem:
-
Versão do cluster: Slurm versão 25.11 ou superior.
-
Grupo de segurança: regras que permitem o tráfego HTTP na porta 6817 a partir das fontes desejadas.
Habilite o endpoint de métricas
Defina as seguintes configurações personalizadas do Slurm em nível de cluster:
-
MetricsType— É necessário especificar um plug-in de métricas compatível, comometrics/openmetrics. -
CommunicationParameters— Deve incluirenable_http.Importante
A ativação
enable_httpexpõe um endpoint HTTP não autenticado. Qualquer pessoa com acesso de rede à porta 6817 pode ler métricas de cluster, trabalho e nó. Use as regras do grupo de segurança para restringir o acesso somente a fontes confiáveis. -
PrivateData— Não deve ser configurado.
Para obter informações adicionais sobre as configurações personalizadas do Slurm, consulte. Definindo configurações personalizadas do Slurm no PCS AWS
Use o endpoint de métricas
Consulte o endpoint de métricas de um host com acesso de rede ao controlador:
curl http://controller-ip:6817/metrics
Para obter informações adicionais sobre as métricas disponíveis e a configuração de scraping, consulte o Guia de métricas