Notas de SageMaker HyperPod lanzamiento de Amazon - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Notas de SageMaker HyperPod lanzamiento de Amazon

En este tema se tratan las notas de la versión que hacen un seguimiento de las actualizaciones, las correcciones y las nuevas funciones de Amazon SageMaker HyperPod. Si estás buscando versiones, actualizaciones y mejoras de características generales para Amazon SageMaker HyperPod, puede que esta página te resulte útil.

Las versiones de la HyperPod AMI se documentan por separado para incluir información sobre los componentes clave, incluidas las versiones, las dependencias y las versiones generales de la AMI. Si busca esta información relacionada con las versiones de HyperPod AMI, consulteAmazon SageMaker HyperPod AMI.

SageMaker HyperPod notas de publicación: 7 de noviembre de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características

SageMaker HyperPod notas de lanzamiento: 29 de septiembre de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características

  • Publicó la nueva SageMaker HyperPod AMI para Amazon EKS 1.33. Para obtener más información, SageMaker HyperPod Lanzamientos de AMI para Amazon EKS: 29 de septiembre de 2025.

    importante
    • La versión beta de Kubernetes de la API de asignación dinámica de recursos está habilitada de forma predeterminada en esta versión.

      • Esta API mejora la programación y la supervisión de las cargas de trabajo que requieren recursos, como: GPUs

      • Esta API fue desarrollada por la comunidad de código abierto de Kubernetes y podría cambiar en futuras versiones de Kubernetes. Antes de usar la API, consulta la documentación de Kubernetes y comprende cómo afecta a tus cargas de trabajo.

    • HyperPod no está publicando una AMI de HyperPod Amazon Linux 2 para Kubernetes 1.33. AWSrecomienda migrar a la versión 0.23. AL2 Para obtener más información, consulte Actualización de Amazon Linux 2 a AL2 023.

Para obtener más información, consulte Kubernetes v1.33.

SageMaker HyperPod notas de lanzamiento: 4 de agosto de 2025

SageMaker HyperPod lanza un nuevo público AMIs para la orquestación de EKS. AMIs Los públicos se pueden usar solos o se pueden usar para crear personalizados AMIs. Para obtener más información sobre el público AMIs, consulteVersiones de AMI públicas. Para obtener más información sobre cómo crear una AMI personalizada, consulte Imágenes de Amazon Machine personalizadas (AMIs) para SageMaker HyperPod clústeres.

SageMaker HyperPod notas de publicación: 31 de julio de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características y mejoras

  • Se ha publicado una nueva AMI que actualiza el sistema operativo de Amazon Linux 2 a Amazon Linux 2023 para los clústeres de EKS. Las actualizaciones clave incluyen Linux Kernel 6.1, Python 3.10, el controlador NVIDIA 560.35.03 y el administrador de paquetes DNF que reemplaza a YUM.

    importante

    La actualización de Amazon Linux 2 a AL2 023 introduce cambios importantes que pueden afectar a la compatibilidad con el software y las configuraciones diseñadas para AL2 ello. Recomendamos encarecidamente probar las aplicaciones con la versión AL2 023 antes de actualizar completamente los clústeres.

    Para obtener más información acerca de la nueva AMI y cómo actualizar los clústeres, consulte SageMaker HyperPod Lanzamientos de AMI para Amazon EKS: 31 de julio de 2025.

SageMaker HyperPod notas de lanzamiento: 13 de mayo de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características y mejoras

SageMaker HyperPod notas de publicación: 1 de mayo de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características

  • Se han añadido informes de uso de los clústeres orquestados por EKS, que permiten a las organizaciones implementar una asignación de costos transparente y basada en el uso entre los equipos, los proyectos o los departamentos. Esta función complementa HyperPod la funcionalidad de gobierno de tareas para garantizar una distribución justa de los costos en AI/ML entornos compartidos de múltiples inquilinos. Para obtener más información, consulte Cómo informar sobre el uso de la informática en HyperPod.

SageMaker HyperPod notas de publicación: 28 de abril de 2025

SageMaker HyperPod publica lo siguiente para Organización de clústeres con Slurm SageMaker HyperPod yOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características y mejoras

Para obtener más información acerca de las versiones de AMI, consulte SageMaker HyperPod Lanzamientos de AMI para Slurm: 28 de abril de 2025 y SageMaker HyperPod Lanzamientos de AMI para Amazon EKS: 28 de abril de 2025.

SageMaker HyperPod notas de publicación: 18 de abril de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características

SageMaker HyperPod notas de publicación: 10 de abril de 2025

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características y mejoras

  • Se agregó un tutorial de recetas de optimización directa de preferencias (DPO) para SageMaker HyperPod la orquestación de Slurm. Este tutorial de ajuste detallado proporciona una step-by-step guía para optimizar la alineación de modelos mediante el método DPO en clústeres de Slurm alimentados por GPU. SageMaker HyperPod Para obtener más información, consulte HyperPod Tutorial de DPO de Slurm Cluster (GPU).

SageMaker HyperPod notas de lanzamiento: 3 de abril de 2025

SageMaker HyperPod publica lo siguiente para Organización de clústeres con Slurm SageMaker HyperPod yOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características y mejoras

  • Se agregó una página de inicio rápido para implementar SageMaker HyperPod clústeres. La página aprovecha los flujos de trabajo de configuración simplificados SageMaker HyperPod de los talleres especializados y automatiza la implementación mediante plantillas prediseñadas. AWS CloudFormation Es compatible con las preferencias de infraestructura, como Slurm o Amazon EKS, para facilitar la configuración y la implementación de los clústeres de referencia.

  • SageMaker HyperPod ahora admite los siguientes tipos de instancias para los clústeres de Slurm y Amazon EKS.

    • Nuevos tipos de instancia: instancias I3en, M7i y R7i. Para ver la lista completa de instancias compatibles, consulte el campo InstanceType en ClusterInstanceGroupDetails.

SageMaker HyperPod notas de publicación: 16 de marzo de 2025

SageMaker HyperPod publica lo siguiente para Organización de clústeres con Slurm SageMaker HyperPod yOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características y mejoras

  • Se han agregado las siguientes claves de condición de IAM para un control de acceso más detallado en las operaciones de la API CreateCluster y UpdateCluster.

    Clave de condición Description (Descripción)
    sagemaker:InstanceTypes Controle el acceso en función de los tipos de instancia especificados.
    sagemaker:VpcSubnets Restrinja la creación o las actualizaciones de clústeres a subredes de Amazon VPC específicas.
    sagemaker:VpcSecurityGroupIds Gestione el acceso en función del grupo de seguridad de Amazon VPC. IDs

SageMaker HyperPod notas de lanzamiento: 20 de febrero de 2025

SageMaker HyperPod publica lo siguiente para Organización de clústeres con Slurm SageMaker HyperPod yOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características y mejoras

SageMaker HyperPod notas de lanzamiento: 18 de febrero de 2025

SageMaker HyperPod publica lo siguiente para Organización de clústeres con Slurm SageMaker HyperPod yOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características

  • Esta versión de SageMaker HyperPod incorpora una actualización de seguridad del kit de herramientas de contenedores de Nvidia (de la versión 1.17.3 a la versión 1.17.4). Para obtener más información, consulte la nota de la versión de 1.17.4.

    nota

    Para todas las cargas de trabajo de contenedores incluidas en la versión 1.17.4 del kit de herramientas de contenedores de Nvidia, el montaje de bibliotecas de compatibilidad con CUDA ahora está desactivado. Para garantizar la compatibilidad con varias versiones de CUDA en los flujos de trabajo de contenedores, actualice su LD_LIBRARY_PATH para que incluya las bibliotecas de compatibilidad de CUDA. Puede consultar los pasos específicos en Si utiliza una capa de compatibilidad CUDA.

Para obtener más información acerca de las versiones de AMI, consulte SageMaker HyperPod Lanzamientos de AMI para Slurm: 18 de febrero de 2025 y SageMaker HyperPod Lanzamientos de AMI para Amazon EKS: 18 de febrero de 2025.

SageMaker HyperPod notas de publicación: 6 de febrero de 2025

SageMaker HyperPod publica lo siguiente para Organización de clústeres con Slurm SageMaker HyperPod yOrganización de SageMaker HyperPod clústeres con Amazon EKS.

Nuevas características y mejoras

  • Compatibilidad mejorada SageMaker HyperPod con zonas de disponibilidad múltiples: puede especificar diferentes subredes y grupos de seguridad, que abarquen diferentes zonas de disponibilidad, para los grupos de instancias individuales de su clúster. Para obtener más información sobre la compatibilidad con zonas de SageMaker HyperPod disponibilidad múltiples, consulte. Configuración de clústeres en varios SageMaker HyperPod AZs

SageMaker HyperPod notas de lanzamiento: 22 de enero de 2025

Versiones de AMI

SageMaker HyperPod notas de lanzamiento: 9 de enero de 2025

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características y mejoras

SageMaker HyperPod notas de publicación: 21 de diciembre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

  • SageMaker HyperPod ahora admite los siguientes tipos de instancias para los clústeres de Slurm y Amazon EKS.

    • Nuevos tipos de instancia: C6gn, C6i, M6i y R6i.

    • Nuevos tipos de instancia de Trainium: Trn1 y Trn1n.

Mejoras

  • Se ha mejorado la visibilidad del registro de errores cuando Slurm interrumpe los trabajos y se ha evitado la finalización innecesaria de los trabajos durante las cancelaciones de trabajos iniciados por Slurm.

  • Se ha actualizado la DLAMI básica para p5en para los clústeres de Slurm y Amazon EKS.

Versiones de AMI

SageMaker HyperPod notas de publicación: 13 de diciembre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nueva característica

  • SageMaker HyperPod publica un conjunto de CloudWatch métricas de Amazon para monitorear el estado y el rendimiento de los clústeres de SageMaker HyperPod Slurm. Estas métricas están relacionadas con la CPU, la GPU, el uso de la memoria y la información de las instancias del clúster, como el número de nodos y los nodos con errores. Esta función de monitoreo está habilitada de forma predeterminada y se puede acceder a las métricas en el /aws/sagemaker/Clusters CloudWatch espacio de nombres. También puede configurar CloudWatch alarmas en función de estas métricas para detectar y abordar de forma proactiva los posibles problemas en sus clústeres basados en SLURM. HyperPod Para obtener más información, consulte Métricas de Amazon SageMaker HyperPod Slurm.

Versiones de AMI

SageMaker HyperPod notas de lanzamiento: 24 de noviembre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

Versiones de AMI

SageMaker HyperPod notas de lanzamiento: 15 de noviembre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod . Para obtener más información, consulte SageMaker HyperPod Lanzamientos de AMI para Amazon EKS: 15 de noviembre de 2024.

Nuevas características y mejoras

  • Se ha añadido compatibilidad con los tipos de instancia trn1 y trn1n para los clústeres orquestados por Amazon EKS y Slurm.

  • Ha mejorado la administración de registros para los clústeres de Slurm:

    • Se ha implementado la rotación de registros: semanal o diaria según el tamaño.

    • Se ha establecido una retención de registros de 3 semanas.

    • Se han comprimido los registros para reducir el impacto en el almacenamiento.

    • Se siguen cargando registros CloudWatch para mantenerlos a largo plazo.

      nota

      Algunos registros siguen guardados en syslogs.

  • Se ha ajustado la configuración de Fluent Bit para evitar problemas de seguimiento con archivos que contienen líneas largas.

Correcciones de errores

  • Se ha evitado el truncamiento involuntario al actualizar nodos del controlador Slurm en el archivo de configuración slurm.config.

Versiones de AMI

SageMaker HyperPod notas de lanzamiento: 11 de noviembre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nueva característica

  • SageMaker HyperPod La AMI ahora admite los tipos de instancias G6e.

Versiones de AMI

SageMaker HyperPod notas de publicación: 31 de octubre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

  • Se agregó la reducción de la escala de SageMaker HyperPod los clústeres a nivel de grupo de instancias y a nivel de instancia para los clústeres orquestados de Amazon EKS y Slurm. Para obtener más información sobre cómo reducir verticalmente los clústeres de Amazon EKS, consulte Reducir la escala de un SageMaker HyperPod clúster. Para obtener más información sobre cómo reducir verticalmente los clústeres de Slurm, consulte Reducción vertical de un clúster en Administrar los clústeres SageMaker HyperPod de Slurm mediante el AWS CLI.

  • SageMaker HyperPod ahora es compatible con el tipo de instancia P5e para los clústeres orquestados de Amazon EKS y Slurm.

SageMaker HyperPod notas de publicación: 21 de octubre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nueva característica

  • SageMaker HyperPod ahora es compatible con los tipos de instancia P5e [n], G6, Gr6 y Trn2 [n] para los clústeres de Slurm y Amazon EKS.

Versiones de AMI

SageMaker HyperPod notas de publicación: 10 de septiembre de 2024

SageMaker HyperPod publica lo siguiente para Organización de SageMaker HyperPod clústeres con Amazon EKS yOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

Versiones de AMI

SageMaker HyperPod notas de lanzamiento: 20 de agosto de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

  • Se mejoró la funcionalidad de SageMaker HyperPod reanudación automática, ampliando la capacidad de resiliencia de los nodos Slurm conectados a Generic RESources (GRES).

    Cuando hay Generic Resources (GRES) asociados a un nodo de Slurm, Slurm no suele permitir cambios en la asignación de nodos, como la sustitución de nodos, y, por tanto, no permite reanudar un trabajo fallido. A menos que se prohíba explícitamente, la función de HyperPod reanudación automática vuelve a poner en cola automáticamente cualquier trabajo defectuoso asociado a los nodos habilitados para GRES. Este proceso implica detener el trabajo, volver a ponerlo en la cola de trabajos y, a continuación, reiniciarlo desde el principio.

Otros cambios

  • Preempaquetado slurmrestden la SageMaker HyperPod AMI.

  • Se han modificado los valores predeterminados de ResumeTimeout y UnkillableStepTimeout de 60 a 300 segundos en slurm.conf para mejorar la capacidad de respuesta del sistema y la gestión de los trabajos.

  • Se han realizado pequeñas mejoras en las comprobaciones de estado de NVIDIA Data Center GPU Manager (DCGM) y de NVIDIA System Management Interface (nvidia-smi).

Correcciones de errores

  • El complemento de HyperPod reanudación automática puede utilizar nodos inactivos para reanudar un trabajo.

SageMaker HyperPod notas de lanzamiento: 20 de junio de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

  • Se agregó una nueva capacidad de adjuntar almacenamiento adicional a las instancias SageMaker HyperPod del clúster. Con esta capacidad, puedes configurar el almacenamiento adicional en el nivel de configuración del grupo de instancias durante los procesos de creación o actualización del clúster, ya sea a través de la SageMaker HyperPod consola o del comando CreateClusterand UpdateCluster APIs. El volumen de EBS adicional se adjunta a cada instancia de un SageMaker HyperPod clúster y se monta en él. /opt/sagemaker Para obtener más información sobre cómo implementarlo en su SageMaker HyperPod clúster, consulte la documentación actualizada en las páginas siguientes.

    Tenga en cuenta que debe actualizar el software del HyperPod clúster para utilizar esta capacidad. Después de aplicar los parches al software de HyperPod clústeres, puedes utilizar esta capacidad para SageMaker HyperPod los clústeres existentes creados antes del 20 de junio de 2024 añadiendo nuevos grupos de instancias. Esta capacidad es totalmente efectiva para cualquier SageMaker HyperPod clúster creado después del 20 de junio de 2024.

Pasos de actualización

  • Ejecute el siguiente comando para llamar a la UpdateClusterSoftwareAPI y actualizar sus HyperPod clústeres existentes con la última HyperPod DLAMI. Para obtener más instrucciones, consulte Actualice el software de la SageMaker HyperPod plataforma de un clúster.

    importante

    Haga una copia de seguridad de su trabajo antes de ejecutar esta API. El proceso de aplicación de parches reemplaza el volumen raíz por la AMI actualizada, lo que significa que se perderán los datos anteriores almacenados en el volumen raíz de la instancia. Asegúrese de hacer una copia de seguridad de los datos del volumen raíz de la instancia en Amazon S3 o Amazon FSx for Lustre. Para obtener más información, consulte Utilice el script de respaldo proporcionado por SageMaker HyperPod.

    aws sagemaker update-cluster-software --cluster-name your-cluster-name
    nota

    Ten en cuenta que debes ejecutar el AWS CLI comando para actualizar el HyperPod clúster. La actualización del HyperPod software a través de la interfaz de usuario de la SageMaker HyperPod consola no está disponible actualmente.

SageMaker HyperPod notas de lanzamiento: 24 de abril de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Correcciones de errores

  • Se ha corregido un error con el parámetro ThreadsPerCore de la API ClusterInstanceGroupSpecification. Con la solución, CreateClustery toma y aplica UpdateCluster APIs correctamente la entrada del usuarioThreadsPerCore. Esta corrección es efectiva en HyperPod los clústeres creados después del 24 de abril de 2024. Si ha tenido problemas con este error y desea aplicar esta corrección a su clúster, debe crear un clúster nuevo. Asegúrese de hacer copia de seguridad de su trabajo y restaurarlo al trasladarse a un clúster nuevo siguiendo las instrucciones que se indican en Utilice el script de respaldo proporcionado por SageMaker HyperPod.

SageMaker HyperPod notas de lanzamiento: 27 de marzo de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

HyperPod parche de software

El equipo HyperPod de servicio distribuye los parches de software medianteSageMaker HyperPod DLAMI. Consulte los siguientes detalles sobre la última versión de HyperPod DLAMI.

  • En esta versión de la HyperPod DLAMI, Slurm se creó con el servicio REST slurmestd () con soporte para JSON, YAML y JWT.

  • Se ha actualizado Slurm a la versión 23.11.3.

Mejoras

  • Se ha incrementado el tiempo de espera del servicio de reanudación automática a 60 minutos.

  • Se ha mejorado el proceso de sustitución de instancias para no reiniciar el controlador Slurm.

  • Se han mejorado los mensajes de error al ejecutar scripts de ciclo de vida, como los errores de descarga y los errores de comprobación de estado de la instancia al iniciar la instancia.

Correcciones de errores

  • Se ha corregido un error en el servicio Chrony que provocaba un problema con la sincronización horaria.

  • Se ha corregido un error con el análisis de slurm.conf.

  • Se ha corregido un problema con la biblioteca go-dcgm de NVIDIA.

SageMaker HyperPod notas de publicación: 14 de marzo de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Mejoras

Versiones de AMI

SageMaker HyperPod notas de lanzamiento: 15 de febrero de 2024

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

  • Se agregó una nueva UpdateClusterSoftware API para la aplicación SageMaker HyperPod de parches de seguridad. Cuando los parches de seguridad estén disponibles, te recomendamos que actualices SageMaker HyperPod los clústeres existentes en tu cuenta aws sagemaker update-cluster-software --cluster-name your-cluster-name ejecutándolos. Para hacer un seguimiento de los futuros parches de seguridad, sigue consultando esta página de notas SageMaker HyperPod de lanzamiento de Amazon. Para obtener más información sobre cómo trabaja la API UpdateClusterSoftware, consulte Actualice el software de la SageMaker HyperPod plataforma de un clúster.

SageMaker HyperPod notas de lanzamiento: 29 de noviembre de 2023

SageMaker HyperPod publica lo siguiente paraOrganización de clústeres con Slurm SageMaker HyperPod .

Nuevas características

  • Lanzó Amazon SageMaker HyperPod en AWS re:Invent 2023.

Versiones de AMI