Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Creación de un SageMaker HyperPod clúster con la orquestación de Amazon EKS
El siguiente tutorial muestra cómo crear un nuevo SageMaker HyperPod clúster y configurarlo con Amazon EKS Orchestration a través de la interfaz de usuario de la consola SageMaker AI.
En este tema:
Crear un clúster
Para ir a la página de SageMaker HyperPod clústeres y elegir Amazon EKS Orchestration, siga estos pasos.
Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/
. -
Seleccione HyperPod Clusters en el panel de navegación izquierdo y, a continuación, Cluster Management.
-
En la página SageMaker HyperPod Clústeres, elija Crear HyperPod clúster.
-
En el menú desplegable Crear HyperPod clúster, elija Orchestrated by Amazon EKS.
-
En la página de creación de clústeres de EKS, verá dos opciones: elija la que mejor se adapte a sus necesidades.
-
Configuración rápida: para comenzar de inmediato con la configuración predeterminada, elija Configuración rápida. Con esta opción, la SageMaker IA creará nuevos recursos, como VPC, subredes, grupos de seguridad, un bucket de Amazon S3, una función de IAM y FSx para Lustre, durante el proceso de creación del clúster.
-
Configuración personalizada: para integrarse con AWS los recursos existentes o tener requisitos específicos de red, seguridad o almacenamiento, elija la configuración personalizada. Con esta opción, puede optar por utilizar los recursos existentes o crear otros nuevos, y puede personalizar la configuración que mejor se adapte a sus necesidades.
-
Configuración rápida
En la sección Configuración rápida, siga estos pasos para crear su HyperPod clúster con la orquestación de Amazon EKS.
Especifique un nombre para el nuevo clúster. No puede cambiar el nombre una vez creado el clúster.
Para añadir un grupo de instancias, selecciona Añadir grupo. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para implementar un clúster, debes agregar al menos un grupo de instancias. Sigue estos pasos para agregar un grupo de instancias.
-
Para el tipo de grupo de instancias, selecciona Grupo de instancias estándar o restringido (RIG). Por lo general, elegirá el estándar, que proporciona un entorno informático de uso general sin restricciones de seguridad adicionales. El grupo de instancias restringido (RIG) es un entorno especializado para la personalización de modelos fundamentales, como Amazon Nova. Para obtener más información sobre la configuración de RIG para la personalización de modelos de Amazon Nova, consultePersonalización de Amazon Nova en Amazon SageMaker HyperPod.
-
En Nombre, especifica un nombre para el grupo de instancias.
-
En el caso de la capacidad de las instancias, elige la capacidad bajo demanda o un plan de formación para reservar tus recursos informáticos.
-
En Tipo de instancia, elige la instancia para el grupo de instancias. Asegúrese de elegir el tipo de instancia con cuotas suficientes en su cuenta o solicite cuotas adicionales accediendo a SageMaker HyperPod cuotas.
-
En Cantidad de instancias, especifica un número entero que no exceda la cuota de instancias para el uso del clúster. Para este tutorial, introduzca 1 para los tres grupos.
-
En la zona de disponibilidad objetivo, elija la zona de disponibilidad en la que se aprovisionarán las instancias. La zona de disponibilidad debe corresponder a la ubicación de su capacidad informática acelerada.
-
En Volumen de almacenamiento adicional por instancia (GB) (opcional), especifique un número entero entre 1 y 16384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es
/opt/sagemaker
. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comandodf -h
. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección Amazon EBS volumes de la Guía del usuario de Amazon Elastic Block Store. -
Para las comprobaciones de estado exhaustivas de Instance, elija su opción. Los controles de estado exhaustivos supervisan el estado de las instancias durante la creación y después de las actualizaciones de software, y recuperan automáticamente las instancias defectuosas mediante reinicios o sustituciones cuando están activadas.
-
Selecciona Añadir grupo de instancias.
En esta sección se enumeran todos los ajustes predeterminados para la creación del clúster, incluidos todos los AWS recursos nuevos que se crearán durante el proceso de creación del clúster. Revise la configuración predeterminada.
Configuración personalizada
En la sección Configuración personalizada, siga estos pasos para crear su primer HyperPod clúster con la orquestación de Amazon EKS.
Especifique un nombre para el nuevo clúster. No puede cambiar el nombre una vez creado el clúster.
En Recuperación de instancias, selecciona Automática (recomendada) o Ninguna.
Configure los ajustes de red dentro in-and-out del clúster y del clúster. Para la orquestación del SageMaker HyperPod clúster con Amazon EKS, la VPC se establece automáticamente en la que se configuró con el clúster de EKS que seleccionó.
-
En el caso de la VPC, elige tu propia VPC si ya tienes una que dé acceso de SageMaker IA a tu VPC. Para crear una nueva VPC, siga las instrucciones de Crear una VPC en la Guía del usuario de Amazon Virtual Private Cloud. Puedes dejarlo como Ninguno para usar la VPC de SageMaker IA predeterminada.
-
Para el bloque IPv4 CIDR de VPC, introduzca la IP de inicio de la VPC.
-
En el caso de las zonas de disponibilidad, elija las zonas de disponibilidad (AZ) en las que se HyperPod crearán las subredes para el clúster. Elija una AZs que coincida con la ubicación de su capacidad informática acelerada.
-
Para los grupos de seguridad, elija grupos de seguridad que estén conectados al clúster de Amazon EKS o cuyo tráfico entrante esté permitido por el grupo de seguridad asociado al clúster de Amazon EKS. Para crear nuevos grupos de seguridad, vaya a la consola de Amazon VPC.
Siga estos pasos para crear o seleccionar un clúster de Amazon EKS para usarlo como orquestador.
-
Para el clúster de EKS, elija crear un nuevo clúster de Amazon EKS o utilizar uno existente.
Si necesita crear un nuevo clúster de EKS, puede crearlo desde la sección de clústeres de EKS sin tener que abrir la consola de Amazon EKS.
nota
La subred de VPC que elija debe ser HyperPod privada.
Tras enviar una nueva solicitud de creación de un clúster de EKS, espere a que el clúster de EKS se convierta en.
Active
-
Para la versión de Kubernetes, selecciona una versión en el menú desplegable. Para obtener más información sobre las versiones de Kubernetes, consulte Comprender el ciclo de vida de las versiones de Kubernetes en EKS en la Guía del usuario de Amazon EKS.
-
Para los operadores, elija Usar gráficos y complementos de Helm predeterminados o No instalar operadores. La opción predeterminada es Usar los gráficos y complementos de Helm predeterminados, que se utilizarán para instalar operadores en el clúster de EKS. Para obtener más información sobre los gráficos y complementos de Helm predeterminados, consulte
helm_chart
el GitHub repositorio. Para obtener más información, consulte Instalación de paquetes en el clúster de Amazon EKS mediante Helm. -
Para los operadores habilitados, consulta la lista de operadores habilitados. Para editar los operadores, desactive la casilla situada en la parte superior y elija los operadores que desee activar en el clúster EKS.
nota
Para usarlo HyperPod con EKS, debe instalar los gráficos y complementos de Helm que habiliten a los operadores en el clúster de EKS. Estos componentes configuran EKS como el plano de control HyperPod y proporcionan la configuración necesaria para la gestión y organización de la carga de trabajo.
Para agregar un grupo de instancias, selecciona Agregar grupo. Cada grupo de instancias se puede configurar de una forma diferente y se puede crear un clúster heterogéneo que conste de varios grupos de instancias con diversos tipos de instancias. Para implementar un clúster, debes agregar al menos un grupo de instancias. Sigue estos pasos para agregar un grupo de instancias.
-
Para el tipo de grupo de instancias, selecciona Grupo de instancias estándar o restringido (RIG). Por lo general, elegirá el estándar, que proporciona un entorno informático de uso general sin restricciones de seguridad adicionales. El grupo de instancias restringido (RIG) es un entorno especializado para la personalización de modelos fundamentales, como Amazon Nova. Para obtener más información sobre la configuración de RIG para la personalización de modelos de Amazon Nova, consultePersonalización de Amazon Nova en Amazon SageMaker HyperPod.
-
En Nombre, especifica un nombre para el grupo de instancias.
-
En el caso de la capacidad de las instancias, elige la capacidad bajo demanda o un plan de formación para reservar tus recursos informáticos.
-
En Tipo de instancia, elige la instancia para el grupo de instancias. Asegúrese de elegir el tipo de instancia con cuotas suficientes en su cuenta o solicite cuotas adicionales accediendo a SageMaker HyperPod cuotas.
-
En Cantidad de instancias, especifica un número entero que no exceda la cuota de instancias para el uso del clúster. Para este tutorial, introduzca 1 para los tres grupos.
-
En la zona de disponibilidad objetivo, elija la zona de disponibilidad en la que se aprovisionarán las instancias. La zona de disponibilidad debe corresponder a la ubicación de su capacidad informática acelerada.
-
En Volumen de almacenamiento adicional por instancia (GB) (opcional), especifique un número entero entre 1 y 16384 para establecer el tamaño de un volumen adicional de Elastic Block Store (EBS) en gigabytes (GB). El volumen de EBS está asociado a cada instancia del grupo de instancias. La ruta de montaje predeterminada para el volumen de EBS adicional es
/opt/sagemaker
. Una vez que el clúster se haya creado correctamente, puede utilizar SSH en las instancias del clúster (nodos) y verificar si el volumen de EBS está montado correctamente ejecutando el comandodf -h
. La conexión de un volumen de EBS adicional proporciona un almacenamiento estable, fuera de la instancia y persistente de forma independiente, tal y como se describe en la sección Amazon EBS volumes de la Guía del usuario de Amazon Elastic Block Store. -
Para las comprobaciones de estado exhaustivas de Instance, elija su opción. Los controles de estado exhaustivos supervisan el estado de las instancias durante la creación y después de las actualizaciones de software, y recuperan automáticamente las instancias defectuosas mediante reinicios o sustituciones cuando están activadas. Para obtener más información, consulte Comprobaciones de estado exhaustivas
-
Selecciona Añadir grupo de instancias.
Puede optar por utilizar los scripts de ciclo de vida predeterminados o los scripts de ciclo de vida personalizados, que se almacenarán en su bucket de Amazon S3. Puede ver los scripts de ciclo de vida predeterminados en el GitHub repositorio de Awesome Distributed Training
-
Para los scripts de ciclo de vida, elija usar scripts de ciclo de vida predeterminados o personalizados.
-
En el caso de un bucket de S3 para scripts de ciclo de vida, elija crear un nuevo bucket o utilizar un bucket existente para almacenar los scripts de ciclo de vida.
Elija o cree un rol de IAM que le permita HyperPod ejecutar y acceder a AWS los recursos necesarios en su nombre. Para obtener más información, consulte Función de IAM para SageMaker HyperPod.
Configure el sistema FSx de archivos de Lustre para que se aprovisione en el clúster. HyperPod
-
Para el sistema de archivos, elija un sistema de archivos existente FSx para Lustre, cree uno nuevo FSx para Lustre o no aprovisione uno FSx para Lustre.
-
En Rendimiento por unidad de almacenamiento, elija el rendimiento que estará disponible por TiB de almacenamiento aprovisionado.
-
En Capacidad de almacenamiento, introduzca un valor de capacidad en TB.
-
En Tipo de compresión de datos, seleccione LZ4habilitar la compresión de datos.
-
Para la versión Lustre, consulta el valor recomendado para los nuevos sistemas de archivos.
En el caso de las etiquetas (opcional), añada pares de claves y valores al nuevo clúster y gestione el clúster como un AWS recurso. Para obtener más información, consulte Tagging your AWS resources.
Implementación de recursos
Después de completar las configuraciones del clúster mediante la configuración rápida o la configuración personalizada, elija la siguiente opción para iniciar el aprovisionamiento de recursos y la creación del clúster.
-
Enviar: SageMaker AI empezará a aprovisionar los recursos de configuración predeterminados y a crear el clúster.
-
Descargar los parámetros de la CloudFormation plantilla: descargará el archivo JSON de los parámetros de configuración y ejecutará el AWS CLI comando para implementar la CloudFormation pila, aprovisionar los recursos de configuración y crear el clúster. Si es necesario, puede editar el archivo JSON de parámetros descargado. Si elige esta opción, consulte más instrucciones enCrear SageMaker HyperPod clústeres mediante AWS CloudFormation plantillas.