As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá. # Observabilidade para o SageMaker HyperPod cluster da Amazon orquestrada pelo Amazon EKS Para obter uma observabilidade abrangente em seus recursos de cluster e componentes de software da Amazon SageMaker HyperPod (SageMaker HyperPod), integre o cluster com o [Amazon CloudWatch Container Insights, o Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) [Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) e o [Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Managed Grafana. Essas ferramentas oferecem visibilidade sobre a integridade do cluster, as métricas de desempenho e a utilização de recursos. A integração com o Amazon Managed Service for Prometheus permite a exportação de métricas relacionadas aos HyperPod seus recursos de cluster, fornecendo informações sobre seu desempenho, utilização e integridade. A integração com o Amazon Managed Grafana permite a visualização dessas métricas por meio de vários painéis do Grafana que oferecem uma interface intuitiva para monitorar e analisar o comportamento do cluster. Ao aproveitar esses serviços, você obtém uma visão centralizada e unificada do seu HyperPod cluster, facilitando o monitoramento proativo, a solução de problemas e a otimização de suas cargas de trabalho de treinamento distribuídas. **nota** Enquanto CloudWatch o Amazon Managed Service for Prometheus e o Amazon Managed Grafana se concentram em métricas operacionais (por exemplo, integridade do sistema, desempenho do trabalho de treinamento) SageMaker HyperPod , os relatórios de uso [complementam a governança de tarefas](sagemaker-hyperpod-eks-operate-console-ui-governance.md) para fornecer insights financeiros e de responsabilidade de recursos. Esses relatórios monitoram: Utilização da computação (GPU/CPU/Neuron Core hours) across namespaces/teams A atribuição de custos para recursos alocados e recursos tomados emprestados. As tendências históricas (até 180 dias) para auditoria e otimização. Para obter mais informações sobre como configurar e gerar relatórios de uso, consulte [Relatar o uso de computação em HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html). **dica** Para encontrar exemplos e soluções práticas, consulte também a seção [Observabilidade](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability) [no SageMaker HyperPod workshop Amazon EKS Support](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e). Continue com os tópicos a seguir para configurar a observabilidade SageMaker HyperPod do cluster. **Topics** + [Observabilidade do modelo para trabalhos de treinamento em SageMaker HyperPod clusters orquestrados pelo Amazon EKS](sagemaker-hyperpod-eks-cluster-observability-model.md) + [Observabilidade de clusters e tarefas](sagemaker-hyperpod-eks-cluster-observability-cluster.md) # Observabilidade do modelo para trabalhos de treinamento em SageMaker HyperPod clusters orquestrados pelo Amazon EKS SageMaker HyperPod clusters orquestrados com o Amazon EKS podem se integrar ao [MLflow aplicativo no Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/mlflow.html). Os administradores do cluster configuram o MLflow servidor e o conectam aos SageMaker HyperPod clusters. Os cientistas de dados podem obter informações sobre o modelo. **Para configurar um MLflow servidor usando a AWS CLI** Um administrador de cluster deve criar um servidor MLflow de rastreamento. 1. Crie um servidor MLflow de rastreamento de SageMaker IA seguindo as instruções em [Criar um servidor de rastreamento usando a AWS CLI](https://docs.aws.amazon.com/sagemaker/latest/dg/mlflow-create-tracking-server-cli.html#mlflow-create-tracking-server-cli-infra-setup). 1. Certifique-se de que a [https://docs.aws.amazon.com/eks/latest/APIReference/API_auth_AssumeRoleForPodIdentity.html](https://docs.aws.amazon.com/eks/latest/APIReference/API_auth_AssumeRoleForPodIdentity.html)permissão exista na função de execução do IAM para SageMaker HyperPod. 1. Se o complemento `eks-pod-identity-agent` ainda não estiver instalado no cluster EKS, instale o complemento no cluster EKS. ``` aws eks create-addon \ --cluster-name \ --addon-name eks-pod-identity-agent \ --addon-version vx.y.z-eksbuild.1 ``` 1. Crie um `trust-relationship.json` arquivo para uma nova função para o Pod chamar MLflow APIs. ``` cat >trust-relationship.json <hyperpod-mlflow-policy.json <" }, { "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": "arn:aws:s3:::" } ] } EOF ``` **nota** Eles ARNs são os do MLflow servidor e do bucket S3 configurados com o MLflow servidor durante o servidor que você criou, seguindo as instruções [Configurar a MLflow infraestrutura](https://docs.aws.amazon.com/sagemaker/latest/dg/mlflow-create-tracking-server-cli.html#mlflow-create-tracking-server-cli-infra-setup). 1. Anexe a `mlflow-metrics-emit-policy` política ao `hyperpod-mlflow-role` uso do documento de política salvo na etapa anterior. ``` aws iam put-role-policy \ --role-name hyperpod-mlflow-role \ --policy-name mlflow-metrics-emit-policy \ --policy-document file://hyperpod-mlflow-policy.json ``` 1. Crie uma conta de serviço do Kubernetes para que o Pod acesse o servidor. MLflow ``` cat >mlflow-service-account.yaml < Há duas opções para monitorar SageMaker HyperPod clusters: **O complemento SageMaker HyperPod de observabilidade** — SageMaker HyperPod fornece um out-of-the-box painel abrangente que fornece informações sobre as tarefas de desenvolvimento do modelo básico (FM) e os recursos do cluster. Essa solução de observabilidade unificada publica automaticamente as principais métricas no Amazon Managed Service for Prometheus e exibe-as nos painéis do Amazon Managed Grafana. Os painéis são otimizados especificamente para o desenvolvimento de FMs e abordam em detalhes a integridade de hardware, a utilização de recursos e o desempenho em nível de tarefa. Com esse complemento, você pode consolidar dados de integridade e desempenho da NVIDIA DCGM, exportadores de nós Kubernetes em nível de instância, adaptador Elastic Fabric, sistemas de arquivos integrados, Kubernetes, Kueue e operadores de tarefas. APIs SageMaker HyperPod **Amazon CloudWatch Insights** — O Amazon CloudWatch Insights coleta métricas para recursos computacionais, como CPU, memória, disco e rede. O Container Insights também fornece informações de diagnóstico, como falhas de reinicialização de contêiner, para ajudar a isolar problemas e resolvê-los rapidamente. Você também pode definir CloudWatch alarmes nas métricas que o Container Insights coleta. **Topics** + [SageMaker HyperPod Observabilidade da Amazon com Amazon Managed Grafana e Amazon Managed Service para Prometheus](sagemaker-hyperpod-observability-addon.md) + [Observabilidade com a Amazon CloudWatch](sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.md) # SageMaker HyperPod Observabilidade da Amazon com Amazon Managed Grafana e Amazon Managed Service para Prometheus A Amazon SageMaker HyperPod (SageMaker HyperPod) fornece um out-of-the-box painel abrangente que fornece informações sobre as tarefas de desenvolvimento do modelo básico (FM) e os recursos do cluster. Essa solução de observabilidade unificada publica automaticamente as principais métricas no Amazon Managed Service for Prometheus e exibe-as nos painéis do Amazon Managed Grafana. Os painéis são otimizados especificamente para o desenvolvimento de FMs e abordam em detalhes a integridade de hardware, a utilização de recursos e o desempenho em nível de tarefa. Com esse complemento, você pode consolidar dados de integridade e desempenho da NVIDIA DCGM, exportadores de nós Kubernetes em nível de instância, adaptador Elastic Fabric, sistemas de arquivos integrados, Kubernetes, Kueue e operadores de tarefas. APIs SageMaker HyperPod ## Suporte ao Restricted Instance Group (RIG) O complemento de observabilidade também oferece suporte a clusters que contêm grupos de instâncias restritas. Nos clusters RIG, o complemento adapta automaticamente sua estratégia de implantação para atender às restrições de isolamento e segurança da rede dos nós restritos. DaemonSet componentes (exportador de nós, exportador DCGM, exportador EFA, monitor Neuron e coletor de nós) são executados em nós padrão e restritos. Os componentes de implantação (coletor central, Kube State Metrics e Training Metrics Agent) são programados com uma lógica que reconhece limites para respeitar o isolamento da rede entre grupos de instâncias. A coleta de registros de contêineres com o Fluent Bit não está disponível em nós restritos. Para obter informações sobre como configurar o complemento em clusters com grupos de instâncias restritas, consulte[Configurando o complemento de SageMaker HyperPod observabilidade](hyperpod-observability-addon-setup.md). **Topics** + [Suporte ao Restricted Instance Group (RIG)](#hyperpod-observability-addon-rig-support) + [Configurando o complemento de SageMaker HyperPod observabilidade](hyperpod-observability-addon-setup.md) + [Painéis de SageMaker HyperPod observabilidade da Amazon](hyperpod-observability-addon-viewing-dashboards.md) + [Explorando métricas de SageMaker HyperPod cluster no Amazon Managed Grafana](hyperpod-observability-addon-exploring-metrics.md) + [Personalização de métricas SageMaker HyperPod de cluster, painéis e alertas](hyperpod-observability-addon-customizing.md) + [Criação de métricas SageMaker HyperPod de cluster personalizadas](hyperpod-observability-addon-custom-metrics.md) + [SageMaker HyperPod métricas de cluster](hyperpod-observability-cluster-metrics.md) + [Alertas pré-configurados](hyperpod-observability-addon-alerts.md) + [Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon](hyperpod-observability-addon-troubleshooting.md) # Configurando o complemento de SageMaker HyperPod observabilidade A lista a seguir descreve os pré-requisitos para configurar o complemento de observabilidade. Para que as métricas do seu cluster Amazon SageMaker HyperPod (SageMaker HyperPod) sejam enviadas para um espaço de trabalho do Amazon Managed Service for Prometheus e, opcionalmente, visualizá-las no Amazon Managed Grafana, primeiro anexe as seguintes políticas e permissões gerenciadas à sua função de console. + Para usar o Amazon Managed Grafana, habilite Centro de Identidade do AWS IAM (IAM Identity Center) em um local onde o Região da AWS Amazon Managed Grafana esteja disponível. Para obter instruções detalhadas, consulte [Getting started with IAM Identity Center](https://docs.aws.amazon.com/singlesignon/latest/userguide/getting-started.html) no *Guia do usuário do Centro de Identidade do AWS IAM *. Para ver uma lista de Regiões da AWS onde o Amazon Managed Grafana está disponível, consulte [Supported Regions](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html#AMG-supported-Regions) no *Guia do usuário do Amazon Managed Grafana*. + Crie pelo menos um usuário no Centro de Identidade do IAM. + Você deve instalar o complemento [Agente de Identidade de Pods do Amazon EKS](https://docs.aws.amazon.com/eks/latest/userguide/workloads-add-ons-available-eks.html#add-ons-pod-id) em seu cluster do Amazon EKS. O complemento Amazon EKS Pod Identity Agent possibilita que o complemento de SageMaker HyperPod observabilidade obtenha as credenciais para interagir com o Amazon Managed Service for Prometheus and Logs. CloudWatch Para verificar se seu cluster do Amazon EKS tem o complemento, acesse o console do Amazon EKS e verifique a guia **Complementos** do seu cluster. Para ter informações sobre como instalar o complemento se ele ainda não estiver instalado, consulte [Criar complemento (Console de gerenciamento da AWS)](https://docs.aws.amazon.com/eks/latest/userguide/creating-an-add-on.html#_create_add_on_console) no *Guia do usuário do Amazon EKS*. **nota** O Amazon EKS Pod Identity Agent é necessário para grupos de instâncias padrão. Para grupos de instâncias restritas (RIG), o Pod Identity Agent não está disponível devido a restrições de isolamento da rede. A função IAM de execução do grupo de instâncias do cluster é usada para interagir com o Amazon Managed Service for Prometheus. Para obter informações sobre como configurar essa função, consulte[Pré-requisitos adicionais para grupos de instâncias restritas](#hyperpod-observability-addon-rig-prerequisites). + Certifique-se de ter pelo menos um nó em seu SageMaker HyperPod cluster antes de instalar o complemento SageMaker HyperPod de observabilidade. O menor tipo de instância do Amazon EC2 que funciona nesse caso é `4xlarge`. Esse requisito mínimo de tamanho de nó garante que o nó possa acomodar todos os pods que o complemento de SageMaker HyperPod observabilidade cria junto com quaisquer outros pods já em execução no cluster. + Adicione as políticas e permissões a seguir ao seu perfil. + [AWS política gerenciada: AmazonSageMakerHyperPodObservabilityAdminAccess](security-iam-awsmanpol-AmazonSageMakerHyperPodObservabilityAdminAccess.md) + [AWS política gerenciada: AWSGrafana WorkspacePermissionManagement V2](https://docs.aws.amazon.com/grafana/latest/userguide/security-iam-awsmanpol.html#security-iam-awsmanpol-AWSGrafanaWorkspacePermissionManagementV2) + [AWS política gerenciada: AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) + Permissões adicionais para configurar os perfis do IAM necessários para acesso complementar ao Amazon Managed Grafana e ao Amazon Elastic Kubernetes Service: ------ #### [ JSON ] **** ``` { "Version":"2012-10-17", "Statement": [ { "Sid": "CreateRoleAccess", "Effect": "Allow", "Action": [ "iam:CreateRole", "iam:CreatePolicy", "iam:AttachRolePolicy", "iam:ListRoles" ], "Resource": [ "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityGrafanaAccess*", "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityAddonAccess*", "arn:aws:iam::*:policy/service-role/HyperPodObservabilityAddonPolicy*", "arn:aws:iam::*:policy/service-role/HyperPodObservabilityGrafanaPolicy*" ] } ] } ``` ------ + Permissões adicionais necessárias para gerenciar usuários do Centro de Identidade do IAM para o Amazon Managed Grafana: ------ #### [ JSON ] **** ``` { "Version":"2012-10-17", "Statement": [ { "Sid": "SSOAccess", "Effect": "Allow", "Action": [ "sso:ListProfileAssociations", "sso-directory:SearchUsers", "sso-directory:SearchGroups", "sso:AssociateProfile", "sso:DisassociateProfile" ], "Resource": [ "*" ] } ] } ``` ------ ## Pré-requisitos adicionais para grupos de instâncias restritas Se seu cluster contiver grupos de instâncias restritas, a função de execução do grupo de instâncias deverá ter permissões para gravar métricas no Amazon Managed Service for Prometheus. Quando você usa a **Configuração rápida** para criar seu cluster com a observabilidade ativada, essas permissões são adicionadas automaticamente à função de execução. Se você estiver usando a **configuração personalizada** ou adicionando observabilidade a um cluster RIG existente, certifique-se de que a função de execução de cada grupo de instâncias restritas tenha as seguintes permissões: ``` { "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:us-east-1:account_id:workspace/workspace-ID" } ] } ``` Substitua *us-east-1**account\$1id*,, e *workspace-ID* por seu Região da AWS ID de conta e Amazon Managed Service for Prometheus Workspace ID. Depois que tiver certeza de que atendeu aos pré-requisitos acima, você poderá instalar o complemento de observabilidade. **Como instalar rapidamente o complemento de observabilidade** 1. Abra o console do Amazon SageMaker AI em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/). 1. Acesse a página de detalhes do seu cluster. 1. Na guia **Painel**, localize o complemento chamado **HyperPod Monitoramento e observabilidade** e escolha Instalação **rápida**. **Como fazer uma instalação personalizada do complemento de observabilidade** 1. Acesse a página de detalhes do seu cluster. 1. Na guia **Painel**, localize o complemento chamado **HyperPod Monitoramento e observabilidade** e escolha Instalação **personalizada**. 1. Especifique as categorias de métricas que você deseja visualizar. Para ter mais informações sobre essas categorias de métricas, consulte [SageMaker HyperPod métricas de cluster](hyperpod-observability-cluster-metrics.md). 1. Especifique se você deseja ativar o Amazon CloudWatch Logs. 1. Especifique se você quer que o serviço crie um espaço de trabalho do Amazon Managed Service for Prometheus. 1. Para poder visualizar as métricas nos painéis do Amazon Managed Grafana, marque a caixa **Use um espaço de trabalho do Amazon Managed Grafana**. Você pode especificar seu próprio espaço de trabalho ou deixar que o serviço crie um para você. **nota** O Amazon Managed Grafana não está disponível em todas as Regiões da AWS áreas em que o Amazon Managed Service for Prometheus está disponível. No entanto, você pode configurar um espaço de trabalho do Grafana em qualquer Região da AWS e configurá-lo para obter dados de métricas de um espaço de trabalho do Prometheus que resida em outra Região da AWS. Para ter informações, consulte [Use AWS data source configuration to add Amazon Managed Service for Prometheus as a data source](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html) e [Connect to Amazon Managed Service for Prometheus and open-source Prometheus data sources](https://docs.aws.amazon.com/grafana/latest/userguide/prometheus-data-source.html). # Painéis de SageMaker HyperPod observabilidade da Amazon Este tópico descreve como visualizar painéis de métricas para seus clusters Amazon SageMaker HyperPod (SageMaker HyperPod) e como adicionar novos usuários a um painel. Este tópico também descreve os diferentes tipos de painel. ## Acesso aos painéis Para visualizar as métricas do seu SageMaker HyperPod cluster no Amazon Managed Grafana, execute as seguintes etapas: 1. Abra o console do Amazon SageMaker AI em [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/). 1. Acesse a página de detalhes do seu cluster. 1. Na guia **Painel**, localize a seção **HyperPod Observabilidade** e escolha **Abrir painel no Grafana**. ## Adicionar novos usuários a um espaço de trabalho do Amazon Managed Grafana Para ter informações sobre como adicionar usuários a um workspace do Amazon Managed Grafana, consulte [Use AWS IAM Identity Center with your Amazon Managed Grafana workspace](https://docs.aws.amazon.com/grafana/latest/userguide/authentication-in-AMG-SSO.html) no *Guia do usuário do Amazon Managed Grafana*. ## Painéis de observabilidade O complemento SageMaker HyperPod de observabilidade fornece seis painéis interconectados em seu espaço de trabalho padrão do Amazon Managed Grafana. Cada painel fornece informações detalhadas sobre diferentes recursos e tarefas nos clusters para vários usuários, como cientistas de dados, engenheiros de machine learning e administradores. ### Painel de tarefas O painel de tarefas fornece monitoramento e visualização abrangentes das métricas de utilização de recursos para SageMaker HyperPod tarefas. O painel principal exibe uma tabela detalhada agrupando o uso de recursos por tarefas principais e mostra a utilização de CPU, GPU e memória nos pods. Grafos interativos de séries temporais monitoram o uso da CPU, o consumo de memória do sistema, as porcentagens de utilização da GPU e o uso de memória da GPU para pods selecionados, permitindo que você monitore as tendências de desempenho ao longo do tempo. O painel apresenta recursos avançados de filtragem por meio de variáveis, como nome do cluster, namespace, tipo de tarefa e pods específicos, facilitando o detalhamento de workloads específicas. Essa solução de monitoramento é essencial para otimizar a alocação de recursos e manter o desempenho das cargas de trabalho de aprendizado de máquina ativadas. SageMaker HyperPod ### Painel de treinamento O painel de treinamento oferece monitoramento abrangente das métricas de integridade, confiabilidade e gerenciamento de falhas das tarefas de treinamento. O painel apresenta os principais indicadores de desempenho, incluindo contagens de criação de tarefas, taxas de sucesso e porcentagens de tempo de atividade, além de rastreamento detalhado de eventos de reinicialização automática e manual. Ele oferece visualizações detalhadas dos padrões de falha por meio de gráficos circulares e mapas de calor que dividem os incidentes por tipo e latência de correção, permitindo que você identifique problemas recorrentes e otimize a confiabilidade das tarefas. A interface inclui monitoramento em tempo real de métricas críticas, como tempos de recuperação do sistema e latências de detecção de falhas, o que a torna uma ferramenta essencial para manter a alta disponibilidade das workloads de treinamento. Além disso, a janela da últimas 24 horas do painel fornece contexto histórico para analisar tendências e padrões no desempenho das tarefas de treinamento, ajudando as equipes a lidar proativamente com possíveis problemas antes que eles afetem as workloads de produção. ### Painel de inferência O painel de inferência oferece monitoramento abrangente do desempenho da implantação do modelo e das métricas de integridade em várias dimensões. Ele apresenta uma visão geral detalhada das implantações ativas, monitoramento em tempo real das taxas de solicitação, porcentagens de sucesso e métricas de latência, permitindo que você acompanhe o desempenho do serviço de modelos e identifique possíveis gargalos. O painel inclui painéis especializados para métricas gerais de inferência e métricas específicas de tokens para modelos de linguagem, como tempo até o primeiro token (TTFT) e throughput do token, o que o torna particularmente valioso para monitorar implantações de grandes modelos de linguagem. Além disso, ele fornece insights de infraestrutura por meio do rastreamento de alocação de pods e nós, ao mesmo tempo em que oferece recursos detalhados de análise de erros para ajudar a manter alta disponibilidade e alto desempenho das workloads de inferência. ### Painel do cluster O painel do cluster fornece uma visão abrangente da integridade e do desempenho do cluster, oferecendo visibilidade em tempo real dos recursos de computação, memória, rede e armazenamento em todo o seu ambiente Amazon SageMaker HyperPod (SageMaker HyperPod). Você pode visualizar métricas essenciais rapidamente, como o total de instâncias, a utilização de GPU, o uso de memória e o desempenho de rede, por meio de uma interface intuitiva que atualiza automaticamente os dados a cada poucos segundos. O painel é organizado em seções lógicas, começando com uma visão geral abrangente do cluster que exibe métricas importantes, como porcentagem de instâncias íntegras e contagens totais de recursos, seguidas de seções detalhadas sobre desempenho da GPU, utilização de memória, estatísticas de rede e métricas de armazenamento. Cada seção apresenta grafos e painéis interativos que permitem detalhar métricas específicas, com intervalos de tempo personalizáveis e opções de filtragem por nome de cluster, instância ou ID da GPU. ### Painel do sistema de arquivos O painel do sistema de arquivos fornece visibilidade abrangente das métricas de desempenho e integridade do sistema de arquivos (Amazon FSx for Lustre). O painel exibe métricas críticas de armazenamento, incluindo capacidade livre, economia de desduplicação, CPU/memory utilização, IOPS de disco, taxa de transferência e conexões de clientes em várias visualizações. Isso possibilita monitorar indicadores de desempenho em nível de sistema, como uso de CPU e memória, bem como métricas específicas de armazenamento, como read/write operações e padrões de utilização de disco. A interface inclui recursos de monitoramento de alertas e grafos detalhados de séries temporais para rastrear tendências de desempenho ao longo do tempo, o que a torna valiosa para manutenção proativa e planejamento de capacidade. Além disso, por meio de sua cobertura abrangente de métricas, o painel ajuda a identificar possíveis gargalos, otimizar o desempenho do armazenamento e garantir operações confiáveis do sistema de arquivos para cargas de trabalho. SageMaker HyperPod ### Painel de partição da GPU Para monitorar métricas específicas da partição da GPU ao usar configurações de GPU de várias instâncias (MIG), você precisa instalar ou atualizar para a versão mais recente do complemento Observability. SageMaker HyperPod Esse complemento fornece recursos abrangentes de monitoramento, incluindo métricas específicas do MIG, como contagem de partições, uso de memória e utilização de computação por partição de GPU. Se você já tem o SageMaker HyperPod Observability instalado, mas precisa de suporte para métricas MIG, basta atualizar o complemento para a versão mais recente. Esse processo não causa interrupções e mantém sua configuração de monitoramento existente. SageMaker HyperPod expõe automaticamente métricas específicas do MIG, incluindo: + `nvidia_mig_instance_count`: Número de instâncias MIG por perfil + `nvidia_mig_memory_usage`: utilização de memória por instância MIG + `nvidia_mig_compute_utilization`: utilização de computação por instância MIG ### Painel de registros do cluster O painel Cluster Logs fornece uma visão centralizada dos CloudWatch registros do seu SageMaker HyperPod cluster. O painel consulta o grupo de `/aws/sagemaker/Clusters/{cluster-name}/{cluster-id}` registros e exibe eventos de log com recursos de filtragem por ID da instância, nome do stream de log, nível de log (ERROR, WARN, INFO, DEBUG) e pesquisa de texto livre. O painel inclui um cronograma de eventos mostrando a distribuição de eventos de log ao longo do tempo, um contador total de eventos, um cronograma de eventos pesquisados para resultados filtrados e um painel de registros detalhado com mensagens de registro completas, carimbos de data/hora e metadados do fluxo de registros. Esse painel é usado CloudWatch como fonte de dados e é útil para depurar problemas de cluster, monitorar eventos de integridade da instância e investigar falhas em tarefas de treinamento. # Explorando métricas de SageMaker HyperPod cluster no Amazon Managed Grafana Depois de conectar o Amazon Managed Grafana ao seu espaço de trabalho do Amazon Managed Service for Prometheus, você pode usar o editor de consultas e as ferramentas de visualização do Grafana para explorar seus dados de métricas. O Amazon Managed Grafana oferece várias maneiras de interagir com os dados do Prometheus, como um editor de consultas abrangente para criar expressões PromQL, um navegador de métricas para descobrir métricas e rótulos disponíveis e recursos de modelagem para criar painéis dinâmicos. Você pode realizar consultas de intervalo para visualizar dados de séries temporais em períodos e consultas instantâneas para recuperar os valores mais recentes, com opções para formatar resultados como grafos de séries temporais, tabelas ou mapas de calor. Para ter informações detalhadas sobre como definir as configurações de consulta, usar o navegador de métricas e aproveitar os recursos de modelagem, consulte [Usar fonte de dados Prometheus](https://docs.aws.amazon.com/grafana/latest/userguide/using-prometheus-datasource.html). # Personalização de métricas SageMaker HyperPod de cluster, painéis e alertas O Amazon Managed Grafana possibilita que você crie painéis abrangentes que visualizam seus dados por meio de painéis contendo consultas conectadas às suas fontes de dados. Você pode criar painéis do zero, importar os existentes ou exportar suas criações para fins de compartilhamento e backup. Os painéis do Grafana permitem usar a funcionalidade dinâmica por meio de variáveis que substituem valores codificados nas consultas, tornando suas visualizações mais flexíveis e interativas. Você também pode aprimorar seus painéis com alguns recursos, como anotações, painéis de biblioteca para reutilização, gerenciamento de histórico de versões e links personalizados, para criar uma solução completa de monitoramento e observabilidade. [Para step-by-step obter orientação sobre como criar, importar, configurar e gerenciar painéis, consulte Criação de painéis.](https://docs.aws.amazon.com/grafana/latest/userguide/v10-dash-building-dashboards.html) # Criação de métricas SageMaker HyperPod de cluster personalizadas O complemento de observabilidade Amazon SageMaker HyperPod (SageMaker HyperPod) fornece centenas de métricas de saúde, desempenho e eficiência. out-of-the-box Além dessas métricas, talvez você precise monitorar métricas personalizadas específicas para suas aplicações ou necessidades comerciais que não são capturadas por métricas padrão, como indicadores de desempenho específicos do modelo, estatísticas de processamento de dados ou medidas específicas da aplicação. Para atender a essa necessidade, você pode implementar a coleta de métricas personalizadas OpenTelemetry usando a integração de um trecho de código Python ao seu aplicativo. Para criar métricas personalizadas, primeiro execute o comando shell a seguir para instalar os OpenTelemetry componentes principais necessários para instrumentar aplicativos Python para fins de observabilidade. Essa instalação possibilita que aplicativos Python SageMaker HyperPod executados em clusters emitam dados de telemetria personalizados. Esses dados são coletados pelo OpenTelemetry coletor e encaminhados para a infraestrutura de observabilidade. ``` pip install opentelemetry-api opentelemetry-sdk opentelemetry-exporter-otlp-proto-grpc ``` O script de exemplo a seguir configura um pipeline de OpenTelemetry métricas que automaticamente marca métricas com informações de pod e node, garantindo a atribuição adequada em seu cluster, e envia essas métricas para a pilha de observabilidade SageMaker HyperPod integrada a cada segundo. O script estabelece uma conexão com o coletor de SageMaker HyperPod métricas, configura atributos de recursos apropriados para identificação e fornece uma interface de medidor por meio da qual você pode criar vários tipos de métricas (contadores, medidores ou histogramas) para rastrear qualquer aspecto do desempenho do seu aplicativo. As métricas personalizadas se integram aos painéis SageMaker HyperPod de monitoramento junto com as métricas do sistema. Essa integração permite uma observabilidade abrangente por meio de uma única interface na qual você pode criar alertas, visualizações e relatórios personalizados para monitorar o perfil de desempenho completo da workload. ``` import os from opentelemetry import metrics from opentelemetry.exporter.otlp.proto.grpc.metric_exporter import OTLPMetricExporter from opentelemetry.sdk.metrics import MeterProvider from opentelemetry.sdk.metrics.export import PeriodicExportingMetricReader from opentelemetry.sdk.resources import Resource # Get hostname/pod name hostname = os.uname()[1] node_name = os.getenv('NODE_NAME', 'unknown') collector_endpoint = "hyperpod-otel-collector.hyperpod-observability:4317" # Configure the OTLP exporter exporter = OTLPMetricExporter( endpoint=collector_endpoint, insecure=True, timeout=5000 # 5 seconds timeout ) reader = PeriodicExportingMetricReader( exporter, export_interval_millis=1000 ) resource = Resource.create({ "service.name": "metric-test", "pod.name": hostname, "node.name": node_name }) meter_provider = MeterProvider( metric_readers=[reader], resource=resource ) metrics.set_meter_provider(meter_provider) # Create a meter meter = metrics.get_meter("test-meter") # Create a counter counter = meter.create_counter( name="test.counter", description="A test counter" ) counter.add(1, {"pod": hostname, "node": node_name}) ``` # SageMaker HyperPod métricas de cluster A Amazon SageMaker HyperPod (SageMaker HyperPod) publica várias métricas em 9 categorias distintas em seu espaço de trabalho do Amazon Managed Service for Prometheus. Nem todas as métricas são habilitadas por padrão ou exibidas no espaço de trabalho do Amazon Managed Grafana. A tabela a seguir mostra quais métricas são ativadas por padrão quando você instala o complemento de observabilidade, quais categorias têm métricas adicionais que podem ser habilitadas para informações mais granulares do cluster e onde elas aparecem no espaço de trabalho do Amazon Managed Grafana. | Categoria métrica | Habilitada por padrão? | Métricas avançadas adicionais disponíveis? | Disponível em quais painéis do Grafana? | | --- | --- | --- | --- | | Métricas de treinamento | Sim | Sim | Treinamento | | Métricas de inferência | Sim | Não | Inferência | | Métricas de governança de tarefas | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. | | Métrica de ajuste de escala | Não | Sim | Nenhum. Consulte seu espaço de trabalho do Amazon Managed Service for Prometheus para criar seu próprio painel. | | Métricas de cluster | Sim | Sim | Cluster | | Métricas de instância | Sim | Sim | Cluster | | Métricas de computação acelerada | Sim | Sim | Tarefa, cluster | | Métricas de rede | Não | Sim | Cluster | | Sistema de arquivos | Sim | Não | Sistema de arquivos | As tabelas a seguir descrevem as métricas disponíveis para monitorar seu SageMaker HyperPod cluster, organizadas por categoria. ## Disponibilidade de métricas em grupos de instâncias restritas Quando seu cluster contém grupos de instâncias restritas, a maioria das categorias de métricas está disponível em nós restritos, com as seguintes exceções e considerações. Você também pode configurar alertas em qualquer métrica de sua escolha. | Categoria métrica | Disponível nos nós RIG? | Observações | | --- | --- | --- | | Métricas de treinamento | Sim | As métricas do pod Kubeflow e Kubernetes são coletadas. As métricas de KPI de treinamento avançado (do Training Metrics Agent) não estão disponíveis nos nós do RIG. | | Métricas de inferência | Não | As cargas de trabalho de inferência não são compatíveis com grupos de instâncias restritas. | | Métricas de governança de tarefas | Não | As métricas do Kueue são coletadas somente dos nós padrão, se houver. | | Métrica de ajuste de escala | Não | As métricas do KEDA são coletadas somente dos nós padrão, se houver. | | Métricas de cluster | Sim | As métricas do Kube State e as métricas do servidor da API estão disponíveis. O Kube State Metrics é programado preferencialmente em nós padrão, mas pode ser executado em nós restritos em clusters somente do Rig. | | Métricas de instância | Sim | As métricas do Node Exporter e do cAdvisor são coletadas em todos os nós, incluindo os nós restritos. | | Métricas de computação acelerada | Sim | O DCGM Exporter é executado em nós restritos habilitados para GPU. O Neuron Monitor é executado em nós restritos habilitados para Neuron quando o modo avançado está ativado. | | Métricas de rede | Sim | O EFA Exporter é executado em nós restritos habilitados para EFA quando o modo avançado está ativado. | | Métricas do sistema de arquivos | Sim | FSx as métricas de utilização do cluster do Lustre são suportadas em grupos de instâncias restritas. | **nota** A coleta de registros de contêineres com o Fluent Bit não é implantada em nós restritos. Os registros de cluster de nós restritos estão disponíveis por meio da SageMaker HyperPod plataforma, independentemente do complemento de observabilidade. Você pode ver esses registros no painel Cluster Logs. ## Métricas de treinamento Use essas métricas para monitorar o desempenho das tarefas de treinamento executadas no SageMaker HyperPod cluster. | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | Métricas do Kubeflow | [https://github.com/kubeflow/treinador](https://github.com/kubeflow/trainer) | Sim | Kubeflow | | Métricas de pod do Kubernetes | [https://github.com/kubernetes/kube-state-metrics](https://github.com/kubernetes/kube-state-metrics) | Sim | Kubernetes | | training\$1uptime\$1percentage | Porcentagem do tempo de treinamento fora do tamanho total da janela. | Não | SageMaker HyperPod operador de treinamento | | training\$1manual\$1recovery\$1count | Número total de reinicializações manuais realizadas na tarefa. | Não | SageMaker HyperPod operador de treinamento | | training\$1manual\$1downtime\$1ms | Tempo total em milissegundos em que a tarefa ficou inativa devido a intervenções manuais. | Não | SageMaker HyperPod operador de treinamento | | training\$1auto\$1recovery\$1count | Número total de recuperações automáticas. | Não | SageMaker HyperPod operador de treinamento | | training\$1auto\$1recovery\$1downtime | Tempo total de sobrecarga da infraestrutura em milissegundos durante a recuperação de falhas. | Não | SageMaker HyperPod operador de treinamento | | training\$1fault\$1count | Número total de falhas encontradas durante o treinamento. | Não | SageMaker HyperPod operador de treinamento | | training\$1fault\$1type\$1count | Distribuição de falhas por tipo. | Não | SageMaker HyperPod operador de treinamento | | training\$1fault\$1recovery\$1time\$1ms | Tempo de recuperação em milissegundos para cada tipo de falha. | Não | SageMaker HyperPod operador de treinamento | | training\$1time\$1ms | Tempo total em milissegundos gasto no treinamento real. | Não | SageMaker HyperPod operador de treinamento | ## Métricas de inferência Use essas métricas para monitorar o desempenho das tarefas de inferência no SageMaker HyperPod cluster. | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | model\$1invocations\$1total | Número total de solicitações de invocação ao modelo. | Sim | SageMaker HyperPod operador de inferência | | model\$1errors\$1total | Número total de erros durante a invocação do modelo. | Sim | SageMaker HyperPod operador de inferência | | model\$1concurrent\$1requests | Solicitações simultâneas de modelo ativas. | Sim | SageMaker HyperPod operador de inferência | | model\$1latency\$1milliseconds | Latência de invocação do modelo em milissegundos. | Sim | SageMaker HyperPod operador de inferência | | model\$1ttfb\$1milliseconds | Tempo de modelagem até a latência do primeiro byte em milissegundos. | Sim | SageMaker HyperPod operador de inferência | | TGI | Estas métricas podem ser usadas para monitorar o desempenho da TGI, ajustar a escala da implantação automaticamente e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte [https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) | Sim | Contêiner do modelo | | LMI | Estas métricas podem ser usadas para monitorar o desempenho da LMI e ajudar a identificar gargalos. Para obter uma lista detalhada de métricas, consulte [https://github.com/deepjavalibrary/djl- serving/blob/master/prometheus/README .md.](https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README.md) | Sim | Contêiner do modelo | ## Métricas de governança de tarefas Use essas métricas para monitorar a governança de tarefas e a alocação de recursos no SageMaker HyperPod cluster. | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | Kueue | Consulte [https://kueue.sigs.k8s. io/docs/reference/metrics](https://kueue.sigs.k8s.io/docs/reference/metrics/)/. | Não | Kueue | ## Métrica de ajuste de escala Use essas métricas para monitorar o comportamento e o desempenho do auto-scaling no cluster. SageMaker HyperPod | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | Métricas do operador KEDA | Consulte [https://keda. sh/docs/2.17/integrations/prometheus/\$1operator](https://keda.sh/docs/2.17/integrations/prometheus/#operator). | Não | Kubernetes Event-driven Autoscaler (KEDA) | | Métricas de webhook do KEDA | Consulte [https://keda. sh/docs/2.17/integrations/prometheus/\$1admission -webhooks](https://keda.sh/docs/2.17/integrations/prometheus/#admission-webhooks). | Não | Kubernetes Event-driven Autoscaler (KEDA) | | Métricas do KEDA Metrics Server | Consulte [https://keda. sh/docs/2.17/integrations/prometheus/\$1metrics -servidor](https://keda.sh/docs/2.17/integrations/prometheus/#metrics-server). | Não | Kubernetes Event-driven Autoscaler (KEDA) | ## Métricas de cluster Use estas métricas para monitorar a integridade geral do cluster e a alocação de recursos. | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | Integridade do cluster | Métricas do servidor de API do Kubernetes. Consulte [https://kubernetes. io/docs/reference/instrumentation/metrics](https://kubernetes.io/docs/reference/instrumentation/metrics/)/. | Sim | Kubernetes | | Kubestate | Veja [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1default -resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources). | Limitado | Kubernetes | | KubeState Avançado | Veja [https://github.com/kubernetes/kube-state-metrics/tree/main/docs\$1optional -resources](https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources). | Não | Kubernetes | ## Métricas de instância Use estas métricas para monitorar o desempenho e a integridade de instâncias individuais. | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | Métricas de nó | Veja [https://github.com/prometheus/node\$1exporter? tabulação = readme-ov-file \$1 enabled-by-default](https://github.com/prometheus/node_exporter?tab=readme-ov-file#enabled-by-default). | Sim | Kubernetes | | Métricas de contêiner | Métricas de contêiner expostas pelo Cadvisor. Consulte o [https://github.com/google/consultor.](https://github.com/google/cadvisor) | Sim | Kubernetes | ## Métricas de computação acelerada Use estas métricas para monitorar o desempenho, a integridade e a utilização de dispositivos individuais de computação acelerada no cluster. **nota** Quando o particionamento de GPU com MIG (GPU de várias instâncias) está ativado em seu cluster, as métricas do DCGM fornecem automaticamente granularidade em nível de partição para monitorar instâncias MIG individuais. Cada partição MIG é exposta como um dispositivo de GPU separado com suas próprias métricas de temperatura, energia, utilização de memória e atividade computacional. Isso permite que você acompanhe o uso e a integridade dos recursos de cada partição de GPU de forma independente, permitindo o monitoramento preciso das cargas de trabalho executadas em recursos fracionários da GPU. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. [Usando partições de GPU na Amazon SageMaker HyperPod](sagemaker-hyperpod-eks-gpu-partitioning.md) | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | GPU da NVIDIA | Métricas do DCGM. Veja [https://github.com/NVIDIA/dcgm- -metrics-included.csv. exporter/blob/main/etc/dcp](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | Limitado | Data Center GPU Manager (DCGM) da NVIDIA | | GPU da NVIDIA (avançada) | Métricas do DCGM comentadas no seguinte arquivo CSV:[https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp](https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv) | Não | Data Center GPU Manager (DCGM) da NVIDIA | | AWS Estágio | Métricas do Neuron. Veja [https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html\$1. neuron-monitor-nc-counters](https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide.html#neuron-monitor-nc-counters) | Não | AWS Monitor de neurônios | ## Métricas de rede Use estas métricas para monitorar o desempenho e a integridade dos Elastic Fabric Adapters (EFA) no cluster. | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | EFA | Veja [https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation\$1and\$1observability/3.efa-node-exporter/README.md.](https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md) | Não | Elastic Fabric Adapter | ## Métricas do sistema de arquivos | Nome da métrica ou tipo | Description | Habilitada por padrão? | Origem da métrica | | --- | --- | --- | --- | | Sistema de arquivos | Métricas do Amazon FSx for Lustre da Amazon CloudWatch:[Monitoramento com a Amazon CloudWatch](https://docs.aws.amazon.com/fsx/latest/LustreGuide/monitoring-cloudwatch.html). | Sim | Amazon FSx para Lustre | # Alertas pré-configurados O complemento de observabilidade Amazon SageMaker HyperPod (SageMaker HyperPod) permite alertas padrão para seu cluster e cargas de trabalho para notificá-lo quando o sistema detectar indicadores iniciais comuns de baixo desempenho do cluster. Esses alertas são definidos no sistema de alerta integrado do Amazon Managed Grafana. Para ter informações sobre como modificar esses alertas pré-configurados ou criar outros, consulte [Alerts in Grafana version 10](https://docs.aws.amazon.com/grafana/latest/userguide/v10-alerts.html) no *Guia do usuário do Amazon Managed Grafana*. O YAML a seguir mostra os alertas padrão. ``` groups: - name: sagemaker_hyperpod_alerts rules: # GPU_TEMP_ABOVE_80C - alert: GPUHighTemperature expr: DCGM_FI_DEV_GPU_TEMP > 80 for: 5m labels: severity: warning annotations: summary: "GPU Temperature Above 80C" description: "GPU {{ $labels.gpu }} temperature is {{ $value }}°C." # GPU_TEMP_ABOVE_85C - alert: GPUCriticalTemperature expr: DCGM_FI_DEV_GPU_TEMP > 85 for: 1m labels: severity: critical annotations: summary: "GPU Temperature Above 85C" description: "GPU {{ $labels.gpu }} temperature is {{ $value }}°C." # GPU_MEMORY_ERROR # Any ECC double-bit errors indicate serious memory issues requiring immediate attention - alert: GPUMemoryErrorDetected expr: DCGM_FI_DEV_ECC_DBE_VOL_TOTAL > 0 or DCGM_FI_DEV_ECC_DBE_AGG_TOTAL > DCGM_FI_DEV_ECC_DBE_AGG_TOTAL offset 5m labels: severity: critical annotations: summary: "GPU ECC Double-Bit Error Detected" description: "GPU {{ $labels.gpu }} has detected ECC double-bit errors." # GPU_POWER_WARNING # Sustained power limit violations can impact performance and stability - alert: GPUPowerViolation expr: DCGM_FI_DEV_POWER_VIOLATION > 100 for: 5m labels: severity: warning annotations: summary: "GPU Power Violation" description: "GPU {{ $labels.gpu }} has been operating at power limit for extended period." # GPU_NVLINK_ERROR # NVLink errors above threshold indicate interconnect stability issues - alert: NVLinkErrorsDetected expr: DCGM_FI_DEV_NVLINK_RECOVERY_ERROR_COUNT_TOTAL > 0 or DCGM_FI_DEV_NVLINK_REPLAY_ERROR_COUNT_TOTAL > 10 labels: severity: warning annotations: summary: "NVLink Errors Detected" description: "GPU {{ $labels.gpu }} has detected NVLink errors." # GPU_THERMAL_VIOLATION # Immediate alert on thermal violations to prevent hardware damage - alert: GPUThermalViolation expr: increase(DCGM_FI_DEV_THERMAL_VIOLATION[5m]) > 0 for: 1m labels: severity: critical annotations: summary: "GPU Thermal Violation Detected" description: "GPU {{ $labels.gpu }} has thermal violations on node {{ $labels.Hostname }}" # GPU_XID_ERROR # XID errors indicate driver or hardware level GPU issues requiring investigation - alert: GPUXidError expr: DCGM_FI_DEV_XID_ERRORS > 0 for: 0m labels: severity: critical annotations: summary: "GPU XID Error Detected" description: "GPU {{ $labels.gpu }} experienced XID error {{ $value }} on node {{ $labels.Hostname }}" # MIG_CONFIG_FAILURE # MIG configuration failures indicate issues with GPU partitioning setup - alert: MIGConfigFailure expr: kubelet_node_name{nvidia_com_mig_config_state="failed"} > 0 for: 1m labels: severity: critical annotations: summary: "MIG Configuration Failed" description: "MIG configuration failed on node {{ $labels.instance }}" # DISK_SPACE_WARNING # 90% threshold ensures time to respond before complete disk exhaustion - alert: NodeDiskSpaceWarning expr: (node_filesystem_size_bytes - node_filesystem_free_bytes) / node_filesystem_size_bytes * 100 > 90 for: 5m labels: severity: warning annotations: summary: "High Disk Usage" description: "Node {{ $labels.instance }} disk usage is above 90%" # FSX_STORAGE_WARNING # 80% FSx utilization allows buffer for burst workloads - alert: FsxLustreStorageWarning expr: fsx_lustre_storage_used_bytes / fsx_lustre_storage_capacity_bytes * 100 > 80 for: 5m labels: severity: warning annotations: summary: "High FSx Lustre Usage" description: "FSx Lustre storage usage is above 80% on file system {{ $labels.filesystem_id }}" ``` # Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon Use as orientações a seguir para resolver problemas comuns com o complemento de observabilidade Amazon SageMaker HyperPod (SageMaker HyperPod). ## Solucionar problemas de métricas ausentes no Amazon Managed Grafana Se as métricas não aparecerem nos painéis do Amazon Managed Grafana, execute as etapas a seguir para identificar e resolver o problema. ### Verificar a conexão do Amazon Managed Service for Prometheus-Amazon Managed Grafana 1. Faça login no console do Amazon Managed Grafana. 1. No painel à esquerda, escolha **Todos os espaços de trabalho**. 1. Na tabela **Espaços de trabalho**, escolha seu espaço de trabalho. 1. Na página de detalhes do espaço de trabalho, escolha a guia **Fontes de dados**. 1. Verifique se a fonte de dados do Amazon Managed Service for Prometheus existe. 1. Verifique as configurações de conexão: + Confirme se o URL do endpoint está correto. + Verifique se a autenticação do IAM está configurada corretamente. + Selecione **Test connection (Testar conexão)**. Verifique se o status é **A fonte de dados está funcionando**. ### Verificar o status do complemento do Amazon EKS 1. Abra o console do Amazon EKS em [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters). 1. Selecione o cluster 1. Escolha a guia **Add-ons** (Complementos). 1. **Verifique se o complemento SageMaker HyperPod de observabilidade está listado e se seu status é ATIVO.** 1. Se o status não for **ATIVO**, consulte [Solucionar problemas de falha na instalação do complemento](#troubleshooting-addon-installation-failures). ### Verificar a associação de Identidade de Pods 1. Abra o console do Amazon EKS em [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters). 1. Selecione o cluster 1. Na página de detalhes do cluster, escolha a guia **Acesso**. 1. Na tabela de **Associações de Identidade de Pods**, escolha a associação que tem os seguintes valores de propriedade: + **Namespace**: `hyperpod-observability` + **Conta de serviço**: `hyperpod-observability-operator-otel-collector`. + **Complemento**: `amazon-sagemaker-hyperpod-observability`. 1. O perfil do IAM anexado a essa associação deve ter as permissões a seguir. ------ #### [ JSON ] **** ``` { "Version":"2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] } ``` ------ 1. O perfil do IAM anexado a essa associação tem a política de confiança a seguir. Verifique se o ARN de origem e a conta de origem estão corretos. ------ #### [ JSON ] **** ``` { "Version":"2012-10-17", "Statement": [ { "Sid": "AllowEksAuthToAssumeRoleForPodIdentity", "Effect": "Allow", "Principal": { "Service": "pods.eks.amazonaws.com" }, "Action": [ "sts:AssumeRole", "sts:TagSession" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name", "aws:SourceAccount": "111122223333" } } } ] } ``` ------ ### Verificar o controle de utilização do Amazon Managed Service for Prometheus 1. Faça login Console de gerenciamento da AWS e abra o console Service Quotas em. [https://console.aws.amazon.com/servicequotas/](https://console.aws.amazon.com/servicequotas/) 1. Na caixa **Cotas gerenciadas**, pesquise e selecione Amazon Managed Service for Prometheus. 1. Escolha a cota **Série ativa por espaço de trabalho**. 1. Na guia **Cotas em nível de recurso**, selecione seu espaço de trabalho do Amazon Managed Service for Prometheus. 1. A utilização deve ser menor que a cota atual. 1. Se você atingiu o limite de cota, selecione seu espaço de trabalho escolhendo o botão de rádio à esquerda e, em seguida, selecione **Solicitar aumento no nível de recurso**. ### Verifique se o cache KV e o roteamento inteligente estão habilitados Se o `KVCache Metrics` painel estiver ausente, o recurso não está ativado ou a porta não é mencionada no`modelMetrics`. Para obter mais informações sobre como habilitar isso, consulte as etapas 1 e 3 em[Configure o cache KV e o roteamento inteligente para melhorar o desempenho](sagemaker-hyperpod-model-deployment-deploy-ftm.md#sagemaker-hyperpod-model-deployment-deploy-ftm-cache-route). Se o `Intelligent Router Metrics` painel estiver ausente, ative o recurso para que eles apareçam. Para obter mais informações sobre como habilitar isso, consulte[Configure o cache KV e o roteamento inteligente para melhorar o desempenho](sagemaker-hyperpod-model-deployment-deploy-ftm.md#sagemaker-hyperpod-model-deployment-deploy-ftm-cache-route). ## Solucionar problemas de falha na instalação do complemento Se a instalação do complemento de observabilidade falhar, use as etapas a seguir para diagnosticar e resolver o problema. ### Verificar o status da sonda de integridade 1. Abra o console do Amazon EKS em [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters). 1. Selecione o cluster 1. Escolha a guia **Add-ons** (Complementos). 1. Escolha o complemento que falhou. 1. Analise a seção **Problemas de integridade**. 1. Se o problema de integridade estiver relacionado a credenciais ou à identidade de pods, consulte [Verificar a associação de Identidade de Pods](#verify-pod-identity-association). Além disso, o complemento Agente de Identidade de Pods deve estar em execução no cluster. 1. Verifique se há erros nos logs do gerenciador. Para instruções, consulte [Analisar logs do gerenciador](#review-manager-logs). 1. Entre em contato com o AWS Support com os detalhes do problema. ### Analisar logs do gerenciador 1. Obtenha o pod do gerenciador de complementos: ``` kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager ``` 1. Para problemas urgentes, entre em contato com o Suporte. ## Analisar todos os pods de observabilidade Todos os pods que o complemento de SageMaker HyperPod observabilidade cria estão no namespace. `hyperpod-observability` Para ver o status desses pods, execute o comando a seguir. ``` kubectl get pods -n hyperpod-observability ``` Procure os pods com status `pending` ou `crashloopbackoff`. Execute o comando a seguir para obter os logs desses pods pendentes ou com falha. ``` kubectl logs -n hyperpod-observability pod-name ``` Se você não encontrar erros nos logs, execute o comando a seguir para descrever os pods e procurar erros. ``` kubectl describe -n hyperpod-observability pod pod-name ``` Para ter mais contexto, execute os dois comandos a seguir para descrever as implantações e os daemonsets desses pods. ``` kubectl describe -n hyperpod-observability deployment deployment-name ``` ``` kubectl describe -n hyperpod-observability daemonset daemonset-name ``` ## Solucionar problemas de pods que estão parados no status pendente Se você perceber que há pods que estão parados no status `pending`, verifique se o nó é grande o suficiente para conter todos os pods. Para verificar isso, execute as etapas a seguir. 1. Abra o console do Amazon EKS em [https://console.aws.amazon.com/eks/home\$1/clusters](https://console.aws.amazon.com/eks/home#/clusters). 1. Escolha seu cluster. 1. Escolha a guia **Computação** do cluster. 1. Escolha o nó com o menor tipo de instância. 1. Na seção de alocação de capacidade, procure os pods disponíveis. 1. Se não houver pods disponíveis, você precisará de um tipo de instância maior. Para problemas urgentes, entre em contato com o AWS Support. ## Solução de problemas de observabilidade em grupos de instâncias restritas Use as diretrizes a seguir para resolver problemas específicos de clusters com grupos de instâncias restritas. ### Os pods de observabilidade não iniciam em nós restritos Se os pods de observabilidade não estiverem iniciando em nós restritos, verifique o status e os eventos do pod: ``` kubectl get pods -n hyperpod-observability -o wide kubectl describe pod pod-name -n hyperpod-observability ``` As causas comuns incluem: + **Falhas na extração de imagem: os** eventos do pod podem mostrar erros de extração de imagem se as imagens do contêiner de observabilidade ainda não estiverem na lista de permissões nos nós restritos. Verifique se você está executando a versão mais recente do complemento de observabilidade. Se o problema persistir após a atualização, entre em contato com. Suporte + **Tolerâncias de contaminação:** verifique se a especificação do pod inclui a tolerância necessária para nós restritos. O complemento a partir da versão adiciona `v1.0.5-eksbuild.1` automaticamente essa tolerância quando o suporte ao RIG está ativado. Se você estiver usando uma versão mais antiga, atualize para a versão mais recente. ### Visualização de registros de pods em nós restritos O `kubectl logs` comando não funciona para pods executados em nós restritos. Essa é uma limitação esperada porque o caminho de comunicação necessário para o streaming de registros não está disponível em nós restritos. Para visualizar registros de nós restritos, use o painel **Cluster Logs** no Amazon Managed Grafana, que consulta CloudWatch os Logs diretamente. Você pode filtrar por ID de instância, fluxo de registros, nível de registro e pesquisa de texto livre para encontrar entradas de registro relevantes. ### Falhas de resolução de DNS em clusters com nós padrão e restritos Em clusters híbridos (clusters com grupos de instâncias padrão e restritos), pods em nós padrão podem ter tempos limite de resolução de DNS ao tentar alcançar endpoints de serviço, como Amazon AWS Managed Service for Prometheus ou. CloudWatch **Causa:** o `kube-dns` serviço tem endpoints de pods CoreDNS padrão e pods RIG CoreDNS. Os pods de nós padrão não podem alcançar os endpoints RIG CoreDNS devido ao isolamento da rede. Quando `kube-proxy` balanceia a carga de uma solicitação de DNS de um pod de nós padrão para um endpoint RIG CoreDNS, a solicitação expira. **Resolução:** configure o `kube-dns` serviço para que os pods só `internalTrafficPolicy: Local` alcancem o CoreDNS em seu nó local: ``` kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}' ``` Depois de aplicar esse patch, reinicie os pods de observabilidade afetados: ``` kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector ``` ### Métricas de nós restritos que não atingem o Amazon Managed Service para Prometheus Se as métricas de nós restritos não estiverem aparecendo em seu espaço de trabalho do Amazon Managed Service for Prometheus: 1. **Verifique as permissões da função de execução.** Certifique-se de que a função de execução do Grupo de Instâncias Restritas tenha `aps:RemoteWrite` permissão para seu espaço de trabalho do Prometheus. Para obter mais informações, consulte [Pré-requisitos adicionais para grupos de instâncias restritas](hyperpod-observability-addon-setup.md#hyperpod-observability-addon-rig-prerequisites). 1. **Verifique o status do pod coletor de nós.** Execute o comando a seguir e verifique se os pods coletores de nós estão sendo executados em nós restritos: ``` kubectl get pods -n hyperpod-observability | grep node-collector ``` 1. **Verifique as implantações do coletor central.** Em clusters com nós restritos, o complemento implanta um coletor central por limite de rede. Verifique se existe um coletor central para cada limite: ``` kubectl get deployments -n hyperpod-observability | grep central-collector ``` 1. **Verifique se há erros nos eventos do pod.** Use `kubectl describe` nos pods de coletores para procurar eventos de erro: ``` kubectl describe pod collector-pod-name -n hyperpod-observability ``` Se o problema persistir após a verificação acima, entre em contato com. Suporte ### A verificação de identidade do pod não se aplica a nós de grupos de instâncias restritos As etapas [Verificar a associação de Identidade de Pods](#verify-pod-identity-association) de solução de problemas se aplicam somente aos nós padrão. Em nós restritos, o complemento usa a função de execução do grupo de instâncias de cluster para AWS autenticação em vez do Amazon EKS Pod Identity. Se faltarem métricas nos nós restritos, verifique as permissões da função de execução em vez da associação do Pod Identity. ### O Fluent Bit não está sendo executado em nós restritos Esse comportamento é esperado. O FluentBit não é implantado intencionalmente em nós restritos. Os registros de nós restritos são publicados CloudWatch por meio da SageMaker HyperPod plataforma, independentemente do complemento de observabilidade. Use o painel **Cluster Logs** no Amazon Managed Grafana para visualizar esses registros. # Observabilidade com a Amazon CloudWatch Use o [Amazon CloudWatch Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) para coletar, agregar e resumir métricas e registros dos aplicativos e microsserviços em contêineres no cluster EKS associado a um cluster. HyperPod O Amazon CloudWatch Insights coleta métricas para recursos computacionais, como CPU, memória, disco e rede. O Container Insights também fornece informações de diagnóstico, como falhas de reinicialização de contêiner, para ajudar a isolar problemas e resolvê-los rapidamente. Você também pode definir CloudWatch alarmes nas métricas que o Container Insights coleta. Para encontrar uma lista completa de métricas, consulte as [Métricas do Amazon EKS e do Kubernetes Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-EKS.html) no *Guia do usuário do Amazon EKS*. ## Instale CloudWatch Container Insights *Os usuários administradores do cluster devem configurar o CloudWatch Container Insights seguindo as instruções em [Instalar o CloudWatch agente usando o complemento Amazon CloudWatch Observability EKS ou o gráfico Helm no Guia](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html) do CloudWatch usuário.* Para obter mais informações sobre o complemento Amazon EKS, consulte também [Instalar o complemento Amazon CloudWatch Observability EKS no Guia](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-setup-EKS-addon.html) do usuário do *Amazon EKS*. Após a conclusão da instalação, verifique se o complemento CloudWatch Observability está visível na guia do complemento do cluster EKS. Pode levar alguns minutos até que o painel seja carregado. **nota** SageMaker HyperPod requer o CloudWatch Insight v2.0.1-eksbuild.1 ou posterior. ![\[CloudWatch Observability service card showing status, version, and IAM role information.\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/hyperpod-eks-CIaddon.png) # Acesse o painel de insights do CloudWatch contêiner 1. Abra o CloudWatch console em [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/). 1. Escolha **Insights** e, em seguida, escolha **Container Insights**. 1. Selecione o cluster EKS configurado com o HyperPod cluster que você está usando. 1. Veja as métricas Pod/Cluster de nível. ![\[Performance monitoring dashboard for EKS cluster showing node status, resource utilization, and pod metrics.\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/hyperpod-eks-CIdashboard.png) ## Acesse registros de insights de CloudWatch contêineres 1. Abra o CloudWatch console em [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/). 1. Escolha **Logs** e depois escolha **Grupo de logs**. Quando você tem os HyperPod clusters integrados ao Amazon CloudWatch Container Insights, você pode acessar os grupos de log relevantes no seguinte formato:`/aws/containerinsights //*`. Nesse grupo de logs, você pode encontrar e explorar vários tipos de logs, como logs de desempenho, logs de host, logs de aplicações e logs do plano de dados.