View a markdown version of this page

Uso de PCS-ready DLAMI con AWS UNIDADES - AWS UNIDADES

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de PCS-ready DLAMI con AWS UNIDADES

La AMI de GPU base PCS-ready DLAMI de AWS (Ubuntu 24.04) es una imagen de máquina de AWS-maintained Amazon para AI/ML ejecutar cargas de trabajo HPC y de HPC en PCS. AWS Proporciona una base lista para la producción para que pueda implementar clústeres en cuestión de minutos en lugar de crear y validar AMI personalizadas.

¿Qué incluye

PCS-ready DLAMI se basa en la AMI de GPU Deep Learning Base (Ubuntu 24.04) y agrega los siguientes componentes de PCS: AWS

  • PCS Agent: el agente de administración de clústeres de AWS PCS

  • Slurm para AWS PCS: vienen preinstaladas varias versiones de Slurm compatibles. La versión correcta se activa automáticamente durante el lanzamiento de la instancia en función de la configuración del clúster.

  • Utilidades EFS: para montar sistemas de archivos Amazon EFS

El DLAMI de origen proporciona el sistema operativo (Ubuntu 24.04), los controladores de GPU NVIDIA, el kit de herramientas CUDA, los controladores EFA, el cliente Lustre y otra infraestructura fundamental. Para obtener más información sobre estos componentes, consulte las notas de la versión de la AMI de aprendizaje profundo.

PCS-ready DLAMI está disponible para las arquitecturas x86_64 y arm64.

nota

PCS-ready DLAMI no incluye software de aplicación AI/ML como marcos PyTorch ( TensorFlow,, JAX), compiladores o bibliotecas matemáticas. Puede añadir su capa de aplicación en sistemas de archivos compartidos o crear una AMI personalizada sobre PCS-ready DLAMI.

El campo de descripción de cada AMI resume su contenido, incluida la DLAMI de origen en la que se basa, la versión del agente PCS, las versiones de Slurm compatibles y la versión de las utilidades de EFS. Puede ver este campo en la consola de Amazon EC2 o mediante la describe-images API. A continuación, se muestra un ejemplo de un valor de campo de descripción:

PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2

Encuentre el PCS-ready DLAMI actual

Consola de administración de AWS
Para buscar PCS-ready DLAMI en la consola
  1. Abra la consola AWS PCS y navegue para crear o editar un grupo de nodos de cómputo.

  2. En la sección de selección de AMI, seleccione PCS-ready AMI.

  3. Aparece un menú desplegable que muestra las PCS-ready DLAM disponibles filtradas según la arquitectura de tipo de instancia seleccionada.

  4. Elija la AMI base de AWS PCS-ready DLAMI (Ubuntu 24.04). El menú desplegable muestra el ID de la AMI y el nombre completo de la AMI a continuación como referencia.

AWS CLI

Puede recuperar el ID de AMI de PCS-ready DLAMI más reciente mediante el almacén de parámetros de Amazon EC2 Systems Manager. Sustitúyalo por el suyoregion-code. Región de AWS

  • x86_64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id \ --query "Parameter.Value" --output text
  • arm64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/arm64/latest/ami-id \ --query "Parameter.Value" --output text

Como alternativa, puede buscar PCS-ready DLAMI por patrón de nombre:

  • x86_64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-x86_64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  • arm64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-arm64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text

Use el ID de AMI cuando cree o actualice un grupo de nodos de cómputo.

Úselo con la infraestructura como código

La ruta del parámetro SSM proporciona una referencia estable que siempre se resuelve en el ID de AMI más reciente. Puede utilizarla en CloudFormation las plantillas para seleccionar automáticamente las nuevas versiones al volver a distribuirlas:

AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'

Actualiza a una nueva versión

AWS publica versiones de PCS-ready DLAMI actualizadas cuando se actualiza la AMI de GPU de Deep Learning Base de origen o cuando se actualizan los componentes de PCS (PCS Agent o Slurm for PCS). Para actualizar el clúster, recupere la ID de AMI más reciente mediante la búsqueda de parámetros o nombres de SSM descrita anteriormente y, a continuación, actualice cada grupo de nodos de procesamiento para que haga referencia a la nueva ID de AMI.