

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Osservabilità per SageMaker HyperPod cluster Amazon orchestrata da Amazon EKS
<a name="sagemaker-hyperpod-eks-cluster-observability"></a>

[Per ottenere un'osservabilità completa nelle risorse e nei componenti software del cluster Amazon SageMaker HyperPod (SageMaker HyperPod), integra il cluster con [Amazon CloudWatch Container Insights, Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)[Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html) e Amazon Managed Grafana.](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) Questi strumenti forniscono visibilità sull’integrità del cluster, sulle metriche delle prestazioni e sull’utilizzo delle risorse.

L'integrazione con Amazon Managed Service for Prometheus consente l'esportazione di metriche relative alle HyperPod risorse del cluster, fornendo informazioni sulle loro prestazioni, utilizzo e integrità. L’integrazione con Grafana gestito da Amazon consente la visualizzazione di queste metriche attraverso varie dashboard Grafana che offrono un’interfaccia intuitiva per il monitoraggio e l’analisi del comportamento del cluster. Sfruttando questi servizi, ottieni una visione centralizzata e unificata del HyperPod cluster, facilitando il monitoraggio proattivo, la risoluzione dei problemi e l'ottimizzazione dei carichi di lavoro di formazione distribuiti.

**Nota**  
Mentre CloudWatch Amazon Managed Service for Prometheus e Amazon Managed Grafana si concentrano sulle metriche operative (ad esempio, lo stato del sistema, la formazione, le prestazioni lavorative SageMaker HyperPod ), i [report sull'utilizzo completano](sagemaker-hyperpod-eks-operate-console-ui-governance.md) la Task Governance per fornire informazioni sulla responsabilità finanziaria e delle risorse. Questi report monitorano:  
Utilizzo del calcolo (GPU/CPU/Neuron Core hours) across namespaces/teams
Attribuzione dei costi per le risorse allocate e quelle prese in prestito
Tendenze cronologiche (fino a 180 giorni) per audit e ottimizzazione
Per ulteriori informazioni sulla configurazione e la generazione di report sull'utilizzo, consulta [Reporting Compute](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-usage-reporting.html) Usage in. HyperPod 

**Suggerimento**  
Per trovare esempi e soluzioni pratiche, consulta anche la sezione [Osservabilità](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e/en-US/06-observability) [nel SageMaker HyperPod workshop Amazon EKS Support](https://catalog.us-east-1.prod.workshops.aws/workshops/2433d39e-ccfe-4c00-9d3d-9917b729258e).

Passa ai seguenti argomenti per configurare l'osservabilità dei SageMaker HyperPod cluster.

**Topics**
+ [Osservabilità dei modelli per i lavori di formazione su SageMaker HyperPod cluster orchestrati da Amazon EKS](sagemaker-hyperpod-eks-cluster-observability-model.md)
+ [Osservabilità di cluster e attività](sagemaker-hyperpod-eks-cluster-observability-cluster.md)