Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
SageMaker HyperPodOsservabilità di Amazon con Amazon Managed Grafana e Amazon Managed Service for Prometheus
Amazon SageMaker HyperPod (SageMaker HyperPod) fornisce una out-of-the-box dashboard completa che fornisce informazioni dettagliate sulle attività di sviluppo del modello di base (FM) e sulle risorse del cluster. Questa soluzione di osservabilità unificata pubblica automaticamente le metriche chiave su Amazon Managed Service for Prometheus e le visualizza nelle dashboard di Amazon Managed Grafana. Le dashboard sono ottimizzate specificamente per lo sviluppo FM con una copertura approfondita dello stato dell'hardware, dell'utilizzo delle risorse e delle prestazioni a livello di attività. Con questo componente aggiuntivo, puoi consolidare i dati sullo stato e sulle prestazioni di NVIDIA DCGM, degli esportatori di nodi Kubernetes a livello di istanza, Elastic Fabric Adapter, dei file system integrati, di Kubernetes, Kueue e degli operatori di attività. APIs SageMaker HyperPod
Argomenti
SageMaker HyperPodConfigurazione del componente aggiuntivo di osservabilità
Esplorazione delle metriche dei SageMaker HyperPod cluster in Amazon Managed Grafana
Personalizzazione delle metriche, dei dashboard e degli avvisi del cluster SageMaker HyperPod
Creazione di metriche di cluster personalizzate SageMaker HyperPod
Risoluzione dei problemi relativi al componente aggiuntivo Amazon SageMaker HyperPod Observability