HyperPod schede in Studio - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

HyperPod schede in Studio

In Amazon SageMaker Studio puoi accedere a uno dei tuoi cluster in HyperPodcluster (in Compute) e visualizzare l'elenco dei cluster. I cluster visualizzati contengono informazioni come attività, parametri hardware, impostazioni e dettagli sui metadati. Questa visibilità può aiutare il team a identificare il candidato giusto per i carichi di lavoro di pre-formazione o di messa a punto. Le seguenti sezioni forniscono informazioni su ogni tipo di informazione.

Attività

Amazon SageMaker HyperPod fornisce una visualizzazione delle attività del cluster. Le attività sono operazioni o lavori che vengono inviati al cluster. Queste possono essere operazioni di apprendimento automatico, come l'addestramento, l'esecuzione di esperimenti o l'inferenza. La sezione seguente fornisce informazioni sulle attività del HyperPod cluster.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster nei HyperPodcluster (in Compute) e visualizzare le informazioni sulle attività sul tuo cluster. Se riscontri problemi con la visualizzazione delle attività, consulta. Risoluzione dei problemi

La tabella delle attività include:

For Slurm clusters

Per i cluster Slurm, le attività attualmente presenti nella coda del job scheduler Slurm sono mostrate nella tabella. Le informazioni mostrate per ogni attività includono il nome dell'attività, lo stato, l'ID del lavoro, la partizione, il tempo di esecuzione, i nodi, il nome creato da e le azioni.

Per un elenco e dettagli sui lavori precedenti, usa il sacctcomando in JupyterLab o un terminale Code Editor. Il sacct comando viene utilizzato per visualizzare informazioni cronologiche sui lavori terminati o completati nel sistema. Fornisce informazioni contabili, incluso l'utilizzo delle risorse lavorative come la memoria e lo stato di uscita.

Per impostazione predefinita, tutti gli utenti di Studio possono visualizzare, gestire e interagire con tutte le attività Slurm disponibili. Per limitare le attività visualizzabili agli utenti di Studio, consulta. Limita la visualizzazione delle attività nei cluster Studio for Slurm

For Amazon EKS clusters

Per i cluster Amazon EKS, le attività kubeflow (PyTorch, MPI, TensorFlow) sono mostrate nella tabella. PyTorch le attività sono mostrate per impostazione predefinita. È possibile ordinare per PyTorch, MPI e TensorFlow in Tipo di attività. Le informazioni visualizzate per ogni attività includono il nome dell'attività, lo stato, lo spazio dei nomi, la classe di priorità e l'ora di creazione.

Per impostazione predefinita, tutti gli utenti possono visualizzare i lavori in tutti i namespace. Per limitare gli spazi dei nomi Kubernetes visualizzabili disponibili per gli utenti di Studio, consulta. Limita la visualizzazione delle attività nei cluster Studio for EKS Se un utente non è in grado di visualizzare le attività e gli viene chiesto di fornire uno spazio dei nomi, deve ottenere tali informazioni dall'amministratore.

Metriche

Amazon SageMaker HyperPod fornisce una visualizzazione delle metriche di utilizzo del cluster Slurm o Amazon EKS. Di seguito vengono fornite informazioni sui parametri del cluster. HyperPod

È necessario installare il componente aggiuntivo Amazon EKS per visualizzare i seguenti parametri. Per ulteriori informazioni, consulta Installare il componente aggiuntivo Amazon CloudWatch Observability EKS.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare i dettagli delle metriche sul tuo cluster. Metrics offre una visione completa dei parametri di utilizzo del cluster, inclusi i parametri relativi all'hardware, al team e alle attività. Ciò include la disponibilità e l'utilizzo dell'elaborazione, l'allocazione e l'utilizzo del team e le informazioni sull'esecuzione delle attività e sui tempi di attesa.

Impostazioni

Amazon SageMaker HyperPod fornisce una visualizzazione delle impostazioni del cluster. Di seguito vengono fornite informazioni sulle impostazioni del HyperPod cluster.

In Amazon SageMaker Studio puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare le informazioni sulle impostazioni del cluster. Le informazioni includono quanto segue:

  • Dettagli sulle istanze, tra cui ID dell'istanza, stato, tipo di istanza e gruppo di istanze

  • Dettagli sui gruppi di istanze, tra cui nome, tipo, conteggio e informazioni di calcolo del gruppo di istanze

  • Dettagli sull'orchestrazione, inclusi l'orchestratore, la versione e l'autorità di certificazione

  • Dettagli sulla resilienza del cluster

  • Dettagli di sicurezza, tra cui sottoreti e gruppi di sicurezza

Informazioni

Amazon SageMaker HyperPod fornisce una visualizzazione dei dettagli dei metadati del cluster. Il paragrafo seguente fornisce informazioni su come ottenere i dettagli HyperPod del cluster.

In Amazon SageMaker Studio, puoi accedere a uno dei tuoi cluster all'interno dei HyperPodcluster (in Compute) e visualizzare i dettagli sul tuo cluster. Ciò include tag, log e metadati.