Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPod Osservabilità di Amazon con Amazon Managed Grafana e Amazon Managed Service for Prometheus
Amazon SageMaker HyperPod (SageMaker HyperPod) offre una out-of-the-box dashboard completa che fornisce informazioni dettagliate sulle attività di sviluppo del modello di base (FM) e sulle risorse del cluster. Questa soluzione unificata di osservabilità pubblica automaticamente le metriche chiave in Servizio gestito da Amazon per Prometheus e le visualizza nelle dashboard di Grafana gestito da Amazon. Le dashboard sono ottimizzate specificamente per lo sviluppo di FM con una copertura approfondita dello stato di integrità dell’hardware, dell’utilizzo delle risorse e delle prestazioni a livello di attività. Con questo componente aggiuntivo, puoi consolidare i dati sullo stato e sulle prestazioni di NVIDIA DCGM, degli esportatori di nodi Kubernetes a livello di istanza, Elastic Fabric Adapter, dei file system integrati, di Kubernetes, Kueue e dei task operator. APIs SageMaker HyperPod
Argomenti
SageMaker HyperPod Configurazione del componente aggiuntivo di osservabilità
Esplorazione delle metriche dei SageMaker HyperPod cluster in Amazon Managed Grafana
Personalizzazione delle metriche, dei dashboard e degli avvisi SageMaker HyperPod del cluster.
Creazione di metriche personalizzate per i cluster SageMaker HyperPod
Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability