As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPodObservabilidade da Amazon com Amazon Managed Grafana e Amazon Managed Service para Prometheus
A Amazon SageMaker HyperPod (SageMaker HyperPod) fornece um out-of-the-box painel abrangente que fornece informações sobre as tarefas de desenvolvimento do modelo básico (FM) e os recursos do cluster. Essa solução unificada de observabilidade publica automaticamente as principais métricas no Amazon Managed Service for Prometheus e as exibe nos painéis do Amazon Managed Grafana. Os painéis são otimizados especificamente para o desenvolvimento de FM com uma cobertura profunda da integridade do hardware, utilização de recursos e desempenho em nível de tarefa. Com esse complemento, você pode consolidar dados de integridade e desempenho da NVIDIA DCGM, exportadores de nós Kubernetes em nível de instância, adaptador Elastic Fabric, sistemas de arquivos integrados, Kubernetes, Kueue e operadores de tarefas. APIs SageMaker HyperPod
Tópicos
Configurando o complemento de SageMaker HyperPod observabilidade
Explorando métricas de SageMaker HyperPod cluster no Amazon Managed Grafana
Personalização de métricas SageMaker HyperPod de cluster, painéis e alertas
Criação de métricas SageMaker HyperPod de cluster personalizadas
Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon