HyperPod schede in Studio - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

HyperPod schede in Studio

In Amazon SageMaker Studio puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare l'elenco dei cluster. I cluster visualizzati contengono informazioni come attività, metriche hardware, impostazioni e dettagli sui metadati. Questa visibilità può aiutare il team a identificare il candidato giusto per i carichi di lavoro di preaddestramento o di fine-tuning. Nelle sezioni seguenti vengono approfonditi i vari tipi di informazioni.

Processi

Amazon SageMaker HyperPod fornisce una visualizzazione delle attività del cluster. Le attività sono operazioni o processi che vengono inviati al cluster. Queste possono essere operazioni di machine learning, come addestramento, esecuzione di esperimenti o inferenza. La sezione seguente fornisce informazioni sulle attività HyperPod del cluster.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster nei HyperPodcluster (in Compute) e visualizzare le informazioni sulle attività sul tuo cluster. Se riscontri problemi con la visualizzazione delle attività, consulta risoluzione dei problemi.

La tabella delle attività include:

For Slurm clusters

Per i cluster Slurm, le attività attualmente presenti nella coda dello scheduler dei processi Slurm sono mostrate nella tabella. Le informazioni mostrate per ogni attività includono il nome dell’attività, lo stato, l’ID del processo, la partizione, il runtime, i nodi, l’autore e le azioni.

Per un elenco e dettagli sui lavori precedenti, usa il sacctcomando in JupyterLab o un terminale Code Editor. Il comando sacct viene utilizzato per visualizzare informazioni cronologiche sui processi terminati o completati nel sistema. Fornisce informazioni sull’accounting, incluso l’utilizzo delle risorse del processo come la memoria e lo stato di uscita.

Per impostazione predefinita, tutti gli utenti di Studio possono visualizzare, gestire e interagire con tutte le attività Slurm disponibili. Per limitare le attività visibili agli utenti di Studio, consulta Limitazione della visualizzazione delle attività nei cluster Studio per Slurm.

For Amazon EKS clusters

Per i cluster Amazon EKS, le attività kubeflow (PyTorch, MPI, TensorFlow) sono mostrate nella tabella. PyTorch le attività sono mostrate per impostazione predefinita. È possibile ordinare per PyTorch, MPI e TensorFlow in Tipo di attività. Le informazioni mostrate per ogni attività includono il nome dell’attività, lo stato, il namespace, la classe di priorità e l’ora di creazione.

Per impostazione predefinita, tutti gli utenti possono visualizzare i processi in tutti i namespace. Per limitare i namespace Kubernetes visualizzabili dagli utenti di Studio, consulta Limitazione della visualizzazione delle attività in Studio per i cluster EKS. Se un utente non visualizza alcuna attività e riceve un messaggio che chiede di fornire un namespace, deve ottenere tali informazioni dall’amministratore.

Metriche

Amazon SageMaker HyperPod fornisce una visualizzazione delle metriche di utilizzo del cluster Slurm o Amazon EKS. Di seguito vengono fornite informazioni sui parametri del cluster. HyperPod

Devi installare il componente aggiuntivo Amazon EKS per visualizzare le seguenti metriche. Per ulteriori informazioni, consulta Installare il componente aggiuntivo Amazon CloudWatch Observability EKS.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare i dettagli delle metriche sul tuo cluster. In Metriche puoi ottenere una visione completa delle metriche di utilizzo dei cluster, ad esempio quelle relative all’hardware, al team e alle attività. Sono inclusi la disponibilità e l’utilizzo delle risorse di calcolo, l’allocazione e l’utilizzo del team e le informazioni sull’esecuzione delle attività e sui tempi di attesa.

Settings

Amazon SageMaker HyperPod fornisce una visualizzazione delle impostazioni del cluster. Di seguito vengono fornite informazioni sulle impostazioni del HyperPod cluster.

In Amazon SageMaker Studio puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare le informazioni sulle impostazioni del cluster. Vengono fornite le informazioni seguenti:

  • Dettagli sulle istanze, tra cui ID dell’istanza, stato, tipo di istanza e gruppo di istanze

  • Dettagli sui gruppi di istanze, tra cui nome, tipo, conteggi e informazioni sulle risorse di calcolo

  • Dettagli sull’orchestrazione, inclusi l’orchestratore, la versione e l’autorità di certificazione

  • Dettagli sulla resilienza del cluster

  • Dettagli sulla sicurezza, ad esempio relativi a sottoreti e gruppi di sicurezza

Informazioni

Amazon SageMaker HyperPod fornisce una visualizzazione dei dettagli dei metadati del cluster. Il paragrafo seguente fornisce informazioni su come ottenere i dettagli HyperPod del cluster.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare i dettagli sul tuo cluster. Questi includono tag, log e metadati.