

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# SageMaker HyperPod Osservabilità di Amazon con Amazon Managed Grafana e Amazon Managed Service for Prometheus
<a name="sagemaker-hyperpod-observability-addon"></a>

Amazon SageMaker HyperPod (SageMaker HyperPod) offre una out-of-the-box dashboard completa che fornisce informazioni dettagliate sulle attività di sviluppo del modello di base (FM) e sulle risorse del cluster. Questa soluzione unificata di osservabilità pubblica automaticamente le metriche chiave in Servizio gestito da Amazon per Prometheus e le visualizza nelle dashboard di Grafana gestito da Amazon. Le dashboard sono ottimizzate specificamente per lo sviluppo di FM con una copertura approfondita dello stato di integrità dell’hardware, dell’utilizzo delle risorse e delle prestazioni a livello di attività. Con questo componente aggiuntivo, puoi consolidare i dati sullo stato e sulle prestazioni provenienti da NVIDIA DCGM, dagli esportatori di nodi Kubernetes a livello di istanza, Elastic Fabric Adapter, dai file system integrati, da Kubernetes, Kueue e dai task operator. APIs SageMaker HyperPod 

## Supporto per Restricted Instance Group (RIG)
<a name="hyperpod-observability-addon-rig-support"></a>

Il componente aggiuntivo di osservabilità supporta anche i cluster che contengono Restricted Instance Groups. Nei cluster RIG, il componente aggiuntivo adatta automaticamente la propria strategia di implementazione per rispettare l'isolamento della rete e i vincoli di sicurezza dei nodi con restrizioni. DaemonSet i componenti (node exporter, DCGM exporter, EFA exporter, Neuron monitor e node collector) funzionano su nodi standard e limitati. I componenti di distribuzione (central collector, Kube State Metrics e Training Metrics Agent) sono pianificati con una logica che riconosce i confini per rispettare l'isolamento della rete tra i gruppi di istanze. La raccolta dei log dei container con Fluent Bit non è disponibile su nodi con restrizioni.

Per informazioni sulla configurazione del componente aggiuntivo su cluster con gruppi di istanze limitati, consulta. [Configurazione del componente aggiuntivo Observability SageMaker HyperPod](hyperpod-observability-addon-setup.md)

**Topics**
+ [Supporto per Restricted Instance Group (RIG)](#hyperpod-observability-addon-rig-support)
+ [Configurazione del componente aggiuntivo Observability SageMaker HyperPod](hyperpod-observability-addon-setup.md)
+ [Dashboard di SageMaker HyperPod osservabilità di Amazon](hyperpod-observability-addon-viewing-dashboards.md)
+ [Esplorazione delle metriche dei SageMaker HyperPod cluster in Amazon Managed Grafana](hyperpod-observability-addon-exploring-metrics.md)
+ [Personalizzazione delle metriche, dei dashboard e degli avvisi SageMaker HyperPod del cluster.](hyperpod-observability-addon-customizing.md)
+ [Creazione di metriche di cluster personalizzate SageMaker HyperPod](hyperpod-observability-addon-custom-metrics.md)
+ [SageMaker HyperPod metriche del cluster](hyperpod-observability-cluster-metrics.md)
+ [Avvisi preconfigurati](hyperpod-observability-addon-alerts.md)
+ [Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability](hyperpod-observability-addon-troubleshooting.md)