Note di SageMaker HyperPod rilascio di Amazon - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Note di SageMaker HyperPod rilascio di Amazon

Questo argomento tratta le note di rilascio che tengono traccia degli aggiornamenti, delle correzioni e delle nuove funzionalità per Amazon SageMaker HyperPod. Se stai cercando versioni, aggiornamenti e miglioramenti di funzionalità generali per Amazon SageMaker HyperPod, potresti trovare utile questa pagina.

Le versioni HyperPod AMI sono documentate separatamente per includere informazioni sui componenti chiave, comprese le versioni generali dell'AMI, le versioni e le dipendenze. Se stai cercando queste informazioni relative alle versioni HyperPod AMI, consulta SageMaker HyperPod AMI Amazon.

SageMaker HyperPod note di rilascio: 7 novembre 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità

SageMaker HyperPod note di rilascio: 29 settembre 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità

  • Rilasciata la nuova SageMaker HyperPod AMI per Amazon EKS 1.33. Per ulteriori informazioni, consulta SageMaker HyperPod Versioni AMI per Amazon EKS: 29 settembre 2025.

    Importante
    • L'API Kubernetes beta di Dynamic Resource Allocation è abilitata per impostazione predefinita in questa versione.

      • Questa API migliora la pianificazione e il monitoraggio dei carichi di lavoro che richiedono risorse come. GPUs

      • Questa API è stata sviluppata dalla community open source di Kubernetes e potrebbe cambiare nelle future versioni di Kubernetes. Prima di utilizzare l'API, consulta la documentazione di Kubernetes e scopri come influisce sui tuoi carichi di lavoro.

    • HyperPod non sta rilasciando un'AMI HyperPod Amazon Linux 2 per Kubernetes 1.33. AWS consiglia di migrare alla versione 023. AL2 Per ulteriori informazioni, consulta Eseguire l'aggiornamento da Amazon Linux 2 a AL2 023.

Per ulteriori informazioni, consulta Kubernetes v1.33.

SageMaker HyperPod note di rilascio: 4 agosto 2025

SageMaker HyperPod rilascia un nuovo pubblico AMIs per l'orchestrazione EKS. AMIs I pubblici possono essere utilizzati da soli o possono essere utilizzati per creare contenuti personalizzati. AMIs Per ulteriori informazioni sul pubblico AMIs, vedereRilasci di AMI pubbliche. Per ulteriori informazioni sulla creazione di un’AMI personalizzata, consulta Amazon Machine Images personalizzate (AMIs) per SageMaker HyperPod cluster.

SageMaker HyperPod note di rilascio: 31 luglio 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità e miglioramenti

  • È stata rilasciata una nuova AMI che aggiorna il sistema operativo da Amazon Linux 2 ad Amazon Linux 2023 per i cluster EKS. Gli aggiornamenti principali includono il kernel Linux 6.1, Python 3.10, NVIDIA Driver 560.35.03 e il gestore dei pacchetti DNF che sostituisce YUM.

    Importante

    L'aggiornamento da Amazon Linux 2 a AL2 023 introduce modifiche significative che potrebbero influire sulla compatibilità con software e configurazioni progettati per. AL2 Consigliamo vivamente di testare le applicazioni con AL2 023 prima di aggiornare completamente i cluster.

    Per ulteriori informazioni sulla nuova AMI e su come aggiornare i cluster, consulta SageMaker HyperPod Versioni AMI per Amazon EKS: 31 luglio 2025.

SageMaker HyperPod note di rilascio: 13 maggio 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità e miglioramenti

  • È stata rilasciata un’AMI aggiornata che supporta Ubuntu 22.04 LTS per cluster Slurm. Questo rilascio include diversi aggiornamenti dei componenti di sistema e software che offrono prestazioni migliorate, funzionalità aggiornate e maggiore sicurezza.

    Importante

    L’aggiornamento da Ubuntu 20.04 LTS a Ubuntu 22.04 LTS introduce modifiche che potrebbero influire sulla compatibilità con il software e le configurazioni progettate per Ubuntu 20.04.

    Per ulteriori informazioni, consulta:

SageMaker HyperPod note di rilascio: 1 maggio 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità

  • È stata aggiunta la creazione di report di utilizzo per i cluster orchestrati da EKS, che consente alle organizzazioni di implementare allocazioni dei costi trasparenti e basate sull’utilizzo in team, progetti o reparti. Questa funzionalità integra HyperPod la funzionalità Task Governance per garantire un'equa distribuzione dei costi in ambienti AI/ML multi-tenant condivisi. Per ulteriori informazioni, consulta Reporting Compute Usage in. HyperPod

SageMaker HyperPod note di versione: 28 aprile 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione SageMaker HyperPod dei cluster con Slurm eOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità e miglioramenti

  • Driver NVIDIA aggiornato dalla versione 550.144.03 alla 550.163.01. Questo aggiornamento è destinato a risolvere le vulnerabilità e le esposizioni comuni (CVEs) presenti nel NVIDIA GPU Display Security Bulletin di aprile 2025.

Per ulteriori informazioni sui rilasci di AMI correlati, consulta SageMaker HyperPod Versioni AMI per Slurm: 28 aprile 2025 e SageMaker HyperPod Versioni AMI per Amazon EKS: 28 aprile 2025.

SageMaker HyperPod note di rilascio: 18 aprile 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità

SageMaker HyperPod note di rilascio: 10 aprile 2025

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità e miglioramenti

  • È stato aggiunto un tutorial sulle ricette di Direct Preference Optimization (DPO) per l'orchestrazione SageMaker HyperPod di Slurm. Questo tutorial di ottimizzazione fornisce step-by-step indicazioni per ottimizzare l'allineamento dei modelli utilizzando il metodo DPO sui cluster Slurm alimentati da GPU. SageMaker HyperPod Per ulteriori informazioni, consulta HyperPod Tutorial Slurm Cluster DPO (GPU).

SageMaker HyperPod note di rilascio: 3 aprile 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione SageMaker HyperPod dei cluster con Slurm eOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità e miglioramenti

  • Aggiunta una pagina Quickstart per la distribuzione dei cluster. SageMaker HyperPod La pagina sfrutta i flussi di lavoro di configurazione semplificati dei workshop specializzati e automatizza SageMaker HyperPod l'implementazione utilizzando modelli predefiniti. AWS CloudFormation Supporta preferenze di infrastruttura come Slurm o Amazon EKS, per semplificare la configurazione e l’implementazione dei cluster baseline.

  • SageMaker HyperPod ora supporta i seguenti tipi di istanza per i cluster Slurm e Amazon EKS.

    • Nuovi tipi di istanze: istanze I3en, M7i e R7i. Per l’elenco completo delle istanze supportate, consulta il campo InstanceType in ClusterInstanceGroupDetails.

SageMaker HyperPod note di rilascio: 16 marzo 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione SageMaker HyperPod dei cluster con Slurm eOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità e miglioramenti

SageMaker HyperPod note di rilascio: 20 febbraio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione SageMaker HyperPod dei cluster con Slurm eOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità e miglioramenti

SageMaker HyperPod note di rilascio: 18 febbraio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione SageMaker HyperPod dei cluster con Slurm eOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità

  • Questa versione di SageMaker HyperPod incorpora un aggiornamento di sicurezza del toolkit contenitore Nvidia (dalla versione 1.17.3 alla versione 1.17.4). Per ulteriori informazioni, consulta le note di rilascio v1.17.4.

    Nota

    Per tutti i carichi di lavoro dei container nel Kit di strumenti per container Nvidia versione 1.17.4, il montaggio delle librerie di compatibilità CUDA ora è disabilitato. Per garantire la compatibilità con più versioni CUDA nei flussi di lavoro dei container, aggiorna LD_LIBRARY_PATH per includere le tue librerie di compatibilità CUDA. Puoi trovare le fasi specifiche in Se utilizzi un livello di compatibilità CUDA.

Per ulteriori informazioni sui rilasci di AMI correlati, consulta SageMaker HyperPod Versioni AMI per Slurm: 18 febbraio 2025 e SageMaker HyperPod Versioni AMI per Amazon EKS: 18 febbraio 2025.

SageMaker HyperPod note di rilascio: 6 febbraio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione SageMaker HyperPod dei cluster con Slurm eOrchestrazione di SageMaker HyperPod cluster con Amazon EKS.

Nuove funzionalità e miglioramenti

  • Supporto SageMaker HyperPod Multi-AZ migliorato: è possibile specificare diverse sottoreti e gruppi di sicurezza, appartenenti a diverse zone di disponibilità, per singoli gruppi di istanze all'interno del cluster. Per ulteriori informazioni sul supporto SageMaker HyperPod Multi-AZ, vedere. Configurazione di cluster su più cluster SageMaker HyperPod AZs

SageMaker HyperPod note di rilascio: 22 gennaio 2025

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 09 gennaio 2025

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità e miglioramenti

SageMaker HyperPod note di rilascio: 21 dicembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

  • SageMaker HyperPod ora supporta i seguenti tipi di istanza per i cluster Slurm e Amazon EKS.

    • Nuovi tipi di istanze: C6gn, C6i, M6i e R6i.

    • Nuovi tipi di istanze Trainium: Trn1 e Trn1n.

Miglioramenti

  • È stata migliorata la visibilità della registrazione di log degli errori quando Slurm arresta i processi e il blocco non necessario delle fasi dei processi durante gli annullamenti dei processi avviati da Slurm.

  • DLAMI di base aggiornata per p5en per i cluster Slurm e Amazon EKS.

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 13 dicembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuova funzionalità

  • SageMaker HyperPod rilascia una serie di CloudWatch parametri Amazon per monitorare lo stato e le prestazioni dei cluster SageMaker HyperPod Slurm. Queste metriche si riferiscono a CPU, GPU, utilizzo della memoria e informazioni sulle istanze del cluster, come il numero di nodi e i nodi difettosi. Questa funzionalità di monitoraggio è abilitata per impostazione predefinita ed è possibile accedere alle metriche nel namespace. /aws/sagemaker/Clusters CloudWatch Puoi anche impostare CloudWatch allarmi basati su queste metriche per rilevare e risolvere in modo proattivo potenziali problemi all'interno dei cluster basati su Slurm. HyperPod Per ulteriori informazioni, consulta Metriche di Amazon SageMaker HyperPod Slurm.

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 24 novembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 15 novembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm. Per ulteriori informazioni, consulta SageMaker HyperPod Versioni AMI per Amazon EKS: 15 novembre 2024.

Nuove funzionalità e miglioramenti

  • È stato aggiunto il supporto per i tipi di istanze trn1 e trn1n per i cluster orchestrati Amazon EKS e Slurm.

  • Gestione dei log migliorata per i cluster Slurm:

    • Rotazione dei log implementata: settimanale o giornaliera in base alle dimensioni.

    • Imposta la conservazione dei log su 3 settimane.

    • Log compressi per ridurre l’impatto sull’archiviazione.

    • Continua a caricare i log CloudWatch per la conservazione a lungo termine.

      Nota

      Alcuni log sono ancora archiviati in syslogs.

  • Impostazioni Fluent Bit modificate per evitare problemi di tracciamento nei file che contengono righe lunghe.

Correzioni di bug

  • È stato impedito il troncamento involontario con gli aggiornamenti del nodo controller Slurm nel file di configurazione slurm.config.

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 11 novembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuova funzionalità

  • SageMaker HyperPod L'AMI ora supporta i tipi di istanza G6e.

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 31 ottobre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

SageMaker HyperPod note di rilascio: 21 ottobre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuova funzionalità

  • SageMaker HyperPod ora supporta i tipi di istanza P5e [n], G6, Gr6 e Trn2 [n] per i cluster Slurm e Amazon EKS.

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 10 settembre 2024

SageMaker HyperPod rilascia quanto segue per Orchestrazione di SageMaker HyperPod cluster con Amazon EKS eOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 20 agosto 2024

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

  • È stata migliorata la funzionalità di SageMaker HyperPod ripristino automatico, estendendo la capacità di resilienza per i nodi Slurm collegati con Generic (GRES). RESources

    Quando le Generic RESources (GRES) sono collegate a un nodo Slurm, Slurm in genere non consente modifiche all’allocazione dei nodi, ad esempio la sostituzione dei nodi, e quindi non consente di riprendere un processo non riuscito. A meno che non sia esplicitamente vietato, la funzionalità di ripristino HyperPod automatico rimette automaticamente in coda qualsiasi lavoro difettoso associato ai nodi abilitati per GRES. Questa procedura prevede l’arresto del processo, il suo reinserimento nella coda dei processi e il suo riavvio dall’inizio.

Altre modifiche

  • Preconfezionato slurmrestdnell'AMI SageMaker HyperPod .

  • Sono stati modificati i valori predefiniti per ResumeTimeout e UnkillableStepTimeout, passati da 60 a 300 secondi in slurm.conf per migliorare la reattività del sistema e la gestione dei processi.

  • Sono stati apportati lievi miglioramenti ai controlli dell’integrità per NVIDIA Data Center GPU Manager (DCGM) e NVIDIA System Management Interface (nvidia-smi).

Correzioni di bug

  • Il plug-in di HyperPod ripristino automatico può utilizzare nodi inattivi per riprendere un lavoro.

SageMaker HyperPod note di rilascio: 20 giugno 2024

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

  • È stata aggiunta una nuova funzionalità di collegamento di storage aggiuntivo alle istanze SageMaker HyperPod del cluster. Con questa funzionalità, è possibile configurare lo storage supplementare a livello di configurazione del gruppo di istanze durante i processi di creazione o aggiornamento del cluster, tramite la SageMaker HyperPod console o il e. CreateClusterUpdateCluster APIs Il volume EBS aggiuntivo è collegato a ciascuna istanza all'interno di un SageMaker HyperPod cluster e montato su. /opt/sagemaker Per ulteriori informazioni sulla sua implementazione nel SageMaker HyperPod cluster, consulta la documentazione aggiornata nelle pagine seguenti.

    Tieni presente che è necessario aggiornare il software del HyperPod cluster per utilizzare questa funzionalità. Dopo aver applicato le patch al software del HyperPod cluster, è possibile utilizzare questa funzionalità per SageMaker HyperPod i cluster esistenti creati prima del 20 giugno 2024 aggiungendo nuovi gruppi di istanze. Questa funzionalità è pienamente efficace per tutti i SageMaker HyperPod cluster creati dopo il 20 giugno 2024.

Fasi dell’aggiornamento

  • Esegui il comando seguente per chiamare l'UpdateClusterSoftwareAPI per aggiornare i HyperPod cluster esistenti con il HyperPod DLAMI più recente. Per ulteriori istruzioni, consulta Aggiorna il software della SageMaker HyperPod piattaforma di un cluster.

    Importante

    Esegui il backup del tuo lavoro prima di eseguire questa API. Il processo di applicazione delle patch sostituisce il volume root con l’AMI aggiornata, il che significa che i dati precedenti archiviati nel volume root dell’istanza andranno persi. Assicurati di eseguire il backup dei dati dal volume root dell'istanza su Amazon S3 o Amazon FSx for Lustre. Per ulteriori informazioni, consulta Utilizza lo script di backup fornito da SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    Nota

    Tieni presente che dovresti eseguire il AWS CLI comando per aggiornare il HyperPod cluster. L'aggiornamento del HyperPod software tramite l'interfaccia utente SageMaker HyperPod della console non è attualmente disponibile.

SageMaker HyperPod note di rilascio: 24 aprile 2024

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Correzioni di bug

  • È stato corretto un bug con il parametro ThreadsPerCore nell’API ClusterInstanceGroupSpecification. Con la correzione, CreateClusteracquisisci e applica UpdateCluster APIs correttamente l'input dell'utenteThreadsPerCore. Questa correzione è valida sui HyperPod cluster creati dopo il 24 aprile 2024. Se questo bug ti ha creato problemi e vuoi applicare questa correzione al cluster, devi creare un nuovo cluster. Assicurati di eseguire il backup e il ripristino del lavoro quando passi a un nuovo cluster seguendo le istruzioni riportate in Utilizza lo script di backup fornito da SageMaker HyperPod.

SageMaker HyperPod note di rilascio: 27 marzo 2024

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

HyperPod patch software

Il team HyperPod di assistenza distribuisce le patch software tramite. SageMaker HyperPod DLAMI Consulta i seguenti dettagli sull'ultima versione di HyperPod DLAMI.

  • In questa versione di HyperPod DLAMI, Slurm è costruito con il servizio REST (slurmestd) con supporto per JSON, YAML e JWT.

  • Slurm aggiornato alla versione 23.11.3.

Miglioramenti

  • Aumento del timeout del servizio di ripresa automatica a 60 minuti.

  • Processo di sostituzione delle istanze migliorato per non riavviare il controller Slurm.

  • Messaggi di errore migliorati grazie all’esecuzione di script del ciclo di vita, ad esempio errori di download ed errori di controllo dell’integrità delle istanze all’avvio dell’istanza.

Correzioni di bug

  • È stato corretto un bug relativo al servizio chrony che causava un problema con la sincronizzazione dell’ora.

  • È stato corretto un bug relativo all’analisi di slurm.conf.

  • È stato corretto un problema con la libreria NVIDIA go-dcgm.

SageMaker HyperPod note di rilascio: 14 marzo 2024

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Miglioramenti

Rilasci dell’AMI

SageMaker HyperPod note di rilascio: 15 febbraio 2024

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

  • Aggiunta una nuova UpdateClusterSoftware API per l'applicazione SageMaker HyperPod di patch di sicurezza. Quando le patch di sicurezza diventano disponibili, ti consigliamo di aggiornare SageMaker HyperPod i cluster esistenti nel tuo account eseguendoli. aws sagemaker update-cluster-software --cluster-name your-cluster-name Per seguire le future patch di sicurezza, continua a tenere traccia di questa pagina delle note di SageMaker HyperPod rilascio di Amazon. Per informazioni sul funzionamento dell’API UpdateClusterSoftware, consulta Aggiorna il software della SageMaker HyperPod piattaforma di un cluster.

SageMaker HyperPod note di rilascio: 29 novembre 2023

SageMaker HyperPod rilascia quanto segue perOrchestrazione SageMaker HyperPod dei cluster con Slurm.

Nuove funzionalità

  • Ha lanciato Amazon SageMaker HyperPod al AWS re:Invent 2023.

Rilasci dell’AMI