

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# SageMaker HyperPod Observabilidade da Amazon com Amazon Managed Grafana e Amazon Managed Service para Prometheus
<a name="sagemaker-hyperpod-observability-addon"></a>

A Amazon SageMaker HyperPod (SageMaker HyperPod) fornece um out-of-the-box painel abrangente que fornece informações sobre as tarefas de desenvolvimento do modelo básico (FM) e os recursos do cluster. Essa solução de observabilidade unificada publica automaticamente as principais métricas no Amazon Managed Service for Prometheus e exibe-as nos painéis do Amazon Managed Grafana. Os painéis são otimizados especificamente para o desenvolvimento de FMs e abordam em detalhes a integridade de hardware, a utilização de recursos e o desempenho em nível de tarefa. Com esse complemento, você pode consolidar dados de integridade e desempenho da NVIDIA DCGM, exportadores de nós Kubernetes em nível de instância, adaptador Elastic Fabric, sistemas de arquivos integrados, Kubernetes, Kueue e operadores de tarefas. APIs SageMaker HyperPod 

## Suporte ao Restricted Instance Group (RIG)
<a name="hyperpod-observability-addon-rig-support"></a>

O complemento de observabilidade também oferece suporte a clusters que contêm grupos de instâncias restritas. Nos clusters RIG, o complemento adapta automaticamente sua estratégia de implantação para atender às restrições de isolamento e segurança da rede dos nós restritos. DaemonSet componentes (exportador de nós, exportador DCGM, exportador EFA, monitor Neuron e coletor de nós) são executados em nós padrão e restritos. Os componentes de implantação (coletor central, Kube State Metrics e Training Metrics Agent) são programados com uma lógica que reconhece limites para respeitar o isolamento da rede entre grupos de instâncias. A coleta de registros de contêineres com o Fluent Bit não está disponível em nós restritos.

Para obter informações sobre como configurar o complemento em clusters com grupos de instâncias restritas, consulte[Configurando o complemento de SageMaker HyperPod observabilidade](hyperpod-observability-addon-setup.md).

**Topics**
+ [Suporte ao Restricted Instance Group (RIG)](#hyperpod-observability-addon-rig-support)
+ [Configurando o complemento de SageMaker HyperPod observabilidade](hyperpod-observability-addon-setup.md)
+ [Painéis de SageMaker HyperPod observabilidade da Amazon](hyperpod-observability-addon-viewing-dashboards.md)
+ [Explorando métricas de SageMaker HyperPod cluster no Amazon Managed Grafana](hyperpod-observability-addon-exploring-metrics.md)
+ [Personalização de métricas SageMaker HyperPod de cluster, painéis e alertas](hyperpod-observability-addon-customizing.md)
+ [Criação de métricas SageMaker HyperPod de cluster personalizadas](hyperpod-observability-addon-custom-metrics.md)
+ [SageMaker HyperPod métricas de cluster](hyperpod-observability-cluster-metrics.md)
+ [Alertas pré-configurados](hyperpod-observability-addon-alerts.md)
+ [Solução de problemas do complemento de SageMaker HyperPod observabilidade da Amazon](hyperpod-observability-addon-troubleshooting.md)