As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Painéis de SageMaker HyperPod observabilidade da Amazon
Este tópico descreve como visualizar painéis de métricas para seus clusters Amazon SageMaker HyperPod (SageMaker HyperPod) e como adicionar novos usuários a um painel. Este tópico também descreve os diferentes tipos de painel.
Acesso aos painéis
Para visualizar as métricas do seu SageMaker HyperPod cluster no Amazon Managed Grafana, execute as seguintes etapas:
Abra o console do Amazon SageMaker AI em https://console.aws.amazon.com/sagemaker/
. -
Acesse a página de detalhes do seu cluster.
-
Na guia Painel, localize a seção HyperPod Observabilidade e escolha Abrir painel no Grafana.
Adicionar novos usuários a um espaço de trabalho do Amazon Managed Grafana
Para ter informações sobre como adicionar usuários a um workspace do Amazon Managed Grafana, consulte Use AWS IAM Identity Center with your Amazon Managed Grafana workspace no Guia do usuário do Amazon Managed Grafana.
Painéis de observabilidade
O complemento SageMaker HyperPod de observabilidade fornece cinco painéis interconectados em seu espaço de trabalho padrão do Amazon Managed Grafana. Cada painel fornece informações detalhadas sobre diferentes recursos e tarefas nos clusters para vários usuários, como cientistas de dados, engenheiros de machine learning e administradores.
Painel de tarefas
O painel de tarefas fornece monitoramento e visualização abrangentes das métricas de utilização de recursos para SageMaker HyperPod tarefas. O painel principal exibe uma tabela detalhada agrupando o uso de recursos por tarefas principais e mostra a utilização de CPU, GPU e memória nos pods. Grafos interativos de séries temporais monitoram o uso da CPU, o consumo de memória do sistema, as porcentagens de utilização da GPU e o uso de memória da GPU para pods selecionados, permitindo que você monitore as tendências de desempenho ao longo do tempo. O painel apresenta recursos avançados de filtragem por meio de variáveis, como nome do cluster, namespace, tipo de tarefa e pods específicos, facilitando o detalhamento de workloads específicas. Essa solução de monitoramento é essencial para otimizar a alocação de recursos e manter o desempenho das cargas de trabalho de aprendizado de máquina ativadas. SageMaker HyperPod
Painel de treinamento
O painel de treinamento oferece monitoramento abrangente das métricas de integridade, confiabilidade e gerenciamento de falhas das tarefas de treinamento. O painel apresenta os principais indicadores de desempenho, incluindo contagens de criação de tarefas, taxas de sucesso e porcentagens de tempo de atividade, além de rastreamento detalhado de eventos de reinicialização automática e manual. Ele oferece visualizações detalhadas dos padrões de falha por meio de gráficos circulares e mapas de calor que dividem os incidentes por tipo e latência de correção, permitindo que você identifique problemas recorrentes e otimize a confiabilidade das tarefas. A interface inclui monitoramento em tempo real de métricas críticas, como tempos de recuperação do sistema e latências de detecção de falhas, o que a torna uma ferramenta essencial para manter a alta disponibilidade das workloads de treinamento. Além disso, a janela da últimas 24 horas do painel fornece contexto histórico para analisar tendências e padrões no desempenho das tarefas de treinamento, ajudando as equipes a lidar proativamente com possíveis problemas antes que eles afetem as workloads de produção.
Painel de inferência
O painel de inferência oferece monitoramento abrangente do desempenho da implantação do modelo e das métricas de integridade em várias dimensões. Ele apresenta uma visão geral detalhada das implantações ativas, monitoramento em tempo real das taxas de solicitação, porcentagens de sucesso e métricas de latência, permitindo que você acompanhe o desempenho do serviço de modelos e identifique possíveis gargalos. O painel inclui painéis especializados para métricas gerais de inferência e métricas específicas de tokens para modelos de linguagem, como tempo até o primeiro token (TTFT) e throughput do token, o que o torna particularmente valioso para monitorar implantações de grandes modelos de linguagem. Além disso, ele fornece insights de infraestrutura por meio do rastreamento de alocação de pods e nós, ao mesmo tempo em que oferece recursos detalhados de análise de erros para ajudar a manter alta disponibilidade e alto desempenho das workloads de inferência.
Painel do cluster
O painel do cluster fornece uma visão abrangente da integridade e do desempenho do cluster, oferecendo visibilidade em tempo real dos recursos de computação, memória, rede e armazenamento em todo o seu ambiente Amazon SageMaker HyperPod (SageMaker HyperPod). Você pode visualizar métricas essenciais rapidamente, como o total de instâncias, a utilização de GPU, o uso de memória e o desempenho de rede, por meio de uma interface intuitiva que atualiza automaticamente os dados a cada poucos segundos. O painel é organizado em seções lógicas, começando com uma visão geral abrangente do cluster que exibe métricas importantes, como porcentagem de instâncias íntegras e contagens totais de recursos, seguidas de seções detalhadas sobre desempenho da GPU, utilização de memória, estatísticas de rede e métricas de armazenamento. Cada seção apresenta grafos e painéis interativos que permitem detalhar métricas específicas, com intervalos de tempo personalizáveis e opções de filtragem por nome de cluster, instância ou ID da GPU.
Painel do sistema de arquivos
O painel do sistema de arquivos fornece visibilidade abrangente das métricas de desempenho e integridade do sistema de arquivos (Amazon FSx for Lustre). O painel exibe métricas críticas de armazenamento, incluindo capacidade livre, economia de desduplicação, CPU/memory utilização, IOPS de disco, taxa de transferência e conexões de clientes em várias visualizações. Isso possibilita monitorar indicadores de desempenho em nível de sistema, como uso de CPU e memória, bem como métricas específicas de armazenamento, como read/write operações e padrões de utilização de disco. A interface inclui recursos de monitoramento de alertas e grafos detalhados de séries temporais para rastrear tendências de desempenho ao longo do tempo, o que a torna valiosa para manutenção proativa e planejamento de capacidade. Além disso, por meio de sua cobertura abrangente de métricas, o painel ajuda a identificar possíveis gargalos, otimizar o desempenho do armazenamento e garantir operações confiáveis do sistema de arquivos para cargas de trabalho. SageMaker HyperPod
Painel de partição da GPU
Para monitorar métricas específicas da partição da GPU ao usar configurações de GPU de várias instâncias (MIG), você precisa instalar ou atualizar para a versão mais recente do complemento Observability. SageMaker HyperPod Esse complemento fornece recursos abrangentes de monitoramento, incluindo métricas específicas do MIG, como contagem de partições, uso de memória e utilização de computação por partição de GPU.
Se você já tem o SageMaker HyperPod Observability instalado, mas precisa de suporte para métricas MIG, basta atualizar o complemento para a versão mais recente. Esse processo não causa interrupções e mantém sua configuração de monitoramento existente.
SageMaker HyperPod expõe automaticamente métricas específicas do MIG, incluindo:
-
nvidia_mig_instance_count: Número de instâncias MIG por perfil -
nvidia_mig_memory_usage: utilização de memória por instância MIG -
nvidia_mig_compute_utilization: utilização de computação por instância MIG