As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Observabilidade de clusters e tarefas
Há duas opções para monitorar SageMaker HyperPod clusters:
O complemento SageMaker HyperPod de observabilidade — SageMaker HyperPod fornece um out-of-the-box painel abrangente que fornece informações sobre as tarefas de desenvolvimento do modelo básico (FM) e os recursos do cluster. Essa solução de observabilidade unificada publica automaticamente as principais métricas no Amazon Managed Service for Prometheus e exibe-as nos painéis do Amazon Managed Grafana. Os painéis são otimizados especificamente para o desenvolvimento de FMs e abordam em detalhes a integridade de hardware, a utilização de recursos e o desempenho em nível de tarefa. Com esse complemento, você pode consolidar dados de integridade e desempenho da NVIDIA DCGM, exportadores de nós Kubernetes em nível de instância, adaptador Elastic Fabric, sistemas de arquivos integrados, Kubernetes, Kueue e operadores de tarefas. APIs SageMaker HyperPod
Amazon CloudWatch Insights — O Amazon CloudWatch Insights coleta métricas para recursos computacionais, como CPU, memória, disco e rede. O Container Insights também fornece informações de diagnóstico, como falhas de reinicialização de contêiner, para ajudar a isolar problemas e resolvê-los rapidamente. Você também pode definir CloudWatch alarmes nas métricas que o Container Insights coleta.