Osservabilità di cluster e attività - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Osservabilità di cluster e attività

Esistono due opzioni per il monitoraggio dei cluster: SageMaker HyperPod

Il componente aggiuntivo SageMaker HyperPod Observability: SageMaker HyperPod fornisce una out-of-the-box dashboard completa che fornisce informazioni dettagliate sulle attività di sviluppo del modello di base (FM) e sulle risorse del cluster. Questa soluzione di osservabilità unificata pubblica automaticamente le metriche chiave su Amazon Managed Service for Prometheus e le visualizza nelle dashboard di Amazon Managed Grafana. Le dashboard sono ottimizzate specificamente per lo sviluppo FM con una copertura approfondita dello stato dell'hardware, dell'utilizzo delle risorse e delle prestazioni a livello di attività. Con questo componente aggiuntivo, puoi consolidare i dati sullo stato e sulle prestazioni di NVIDIA DCGM, degli esportatori di nodi Kubernetes a livello di istanza, Elastic Fabric Adapter, dei file system integrati, di Kubernetes, Kueue e degli operatori di attività. APIs SageMaker HyperPod

Amazon CloudWatch Insights: Amazon CloudWatch Insights raccoglie parametri per le risorse di calcolo, come CPU, memoria, disco e rete. Container Insights fornisce inoltre informazioni diagnostiche, ad esempio errori di riavvio del container, che consentono di isolare i problemi e risolverli in modo rapido. Puoi anche impostare CloudWatch allarmi sui parametri raccolti da Container Insights.