

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Osservabilità di cluster e attività
<a name="sagemaker-hyperpod-eks-cluster-observability-cluster"></a>

Esistono due opzioni per il monitoraggio dei cluster: SageMaker HyperPod 

**Il componente aggiuntivo SageMaker HyperPod Observability**: SageMaker HyperPod fornisce una out-of-the-box dashboard completa che fornisce informazioni dettagliate sulle attività di sviluppo del modello di base (FM) e sulle risorse del cluster. Questa soluzione unificata di osservabilità pubblica automaticamente le metriche chiave in Servizio gestito da Amazon per Prometheus e le visualizza nelle dashboard di Grafana gestito da Amazon. Le dashboard sono ottimizzate specificamente per lo sviluppo di FM con una copertura approfondita dello stato di integrità dell’hardware, dell’utilizzo delle risorse e delle prestazioni a livello di attività. Con questo componente aggiuntivo, puoi consolidare i dati sullo stato e sulle prestazioni di NVIDIA DCGM, degli esportatori di nodi Kubernetes a livello di istanza, Elastic Fabric Adapter, dei file system integrati, di Kubernetes, Kueue e degli operatori di attività. APIs SageMaker HyperPod 

**Amazon CloudWatch Insights**: Amazon CloudWatch Insights raccoglie parametri per le risorse di calcolo, come CPU, memoria, disco e rete. Container Insights fornisce inoltre informazioni diagnostiche, ad esempio errori di riavvio del container, che consentono di isolare i problemi e risolverli in modo rapido. Puoi anche impostare CloudWatch allarmi sui parametri raccolti da Container Insights.

**Topics**
+ [SageMaker HyperPod Osservabilità di Amazon con Amazon Managed Grafana e Amazon Managed Service for Prometheus](sagemaker-hyperpod-observability-addon.md)
+ [Osservabilità con Amazon CloudWatch](sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.md)