Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cómo empezar a utilizar el soporte de Amazon EKS en SageMaker HyperPod
Además del formulario general Requisitos previos para utilizar SageMaker HyperPod SageMaker HyperPod, consulte los siguientes requisitos y consideraciones para organizar SageMaker HyperPod clústeres con Amazon EKS.
importante
Puede configurar los recursos para crear SageMaker HyperPod clústeres mediante las teclas Consola de administración de AWS yCloudFormation. Para obtener más información, consulte Creación de un SageMaker HyperPod clúster con la orquestación de Amazon EKS y Crear SageMaker HyperPod clústeres mediante CloudFormation plantillas.
Requisitos
nota
Antes de crear un HyperPod clúster, necesita un clúster de Amazon EKS en ejecución configurado con VPC e instalado mediante Helm.
-
Si utiliza la consola SageMaker AI, puede crear un clúster de Amazon EKS en la página de la consola de HyperPod clústeres. Para obtener más información, consulte Creación de un SageMaker HyperPod clúster con la orquestación de Amazon EKS.
-
Si utiliza AWS CLI, debe crear un clúster de Amazon EKS antes de crear un HyperPod clúster con el que asociarse. Para obtener más información, consulte Creación de un clúster de Amazon EKS en la Guía del usuario de Amazon EKS.
A la hora de aprovisionar el clúster de Amazon EKS, tenga en cuenta lo siguiente:
-
Compatibilidad con la versión de Kubernetes
-
SageMaker HyperPod es compatible con las versiones 1.28, 1.29, 1.30, 1.31, 1.32 y 1.33 de Kubernetes.
-
-
Modo de autenticación de clústeres de Amazon EKS
-
El modo de autenticación de un clúster de Amazon EKS compatible con SageMaker HyperPod son
APIyAPI_AND_CONFIG_MAP.
-
-
Redes
-
SageMaker HyperPod requiere la versión 1.18.3 o posterior del complemento Amazon VPC Container Network Interface (CNI).
nota
AWSEl complemento CNI de VPC para Kubernetes
es el único CNI compatible con. SageMaker HyperPod -
El tipo de subred de la VPC debe ser privado HyperPod para los clústeres.
-
-
Roles de IAM
-
Asegúrese de que las funciones de IAM necesarias HyperPod estén configuradas tal y como se indica en la sección. AWS Identity and Access Managementpara SageMaker HyperPod
-
-
Complementos de clústeres de Amazon EKS
-
Puede seguir utilizando los distintos complementos que ofrece Amazon EKS, como Kube-proxy, CoreDNS, el complemento Amazon VPC Container Network Interface (CNI), la identidad del pod de Amazon EKS, el GuardDuty agente, el controlador Amazon Container Storage Interface (CSI), el controlador CSI Mountpoint for FSx Amazon S3, la Distro for y el agente Observability. AWS OpenTelemetry CloudWatch
-
Consideraciones para configurar SageMaker HyperPod clústeres con Amazon EKS
-
Debe utilizar roles de IAM distintos en función del tipo de nodo. Para HyperPod los nodos, utilice un rol basado enFunción de IAM para SageMaker HyperPod. Para los nodos de Amazon EKS, consulte Rol de IAM de nodo de Amazon EKS.
-
Puede aprovisionar y montar volúmenes de Amazon EBS adicionales en SageMaker HyperPod los nodos mediante dos enfoques: utilizar InstanceStorageConfigsel aprovisionamiento de volúmenes a nivel de clúster (disponible al crear o actualizar grupos de instancias) o utilizar el controlador Amazon Elastic Block Store (Amazon EBS) Container Storage Interface (CSI) para la gestión dinámica de volúmenes a nivel de pod. Con InstanceStorageConfigs, configure la ruta local
en /opt/sagemakerpara montar correctamente los volúmenes en sus pods de Amazon EKS. Para obtener información sobre cómo implementar el controlador CSI de Amazon EBS en HyperPod los nodos, consulte. Uso del controlador CSI de Amazon EBS en SageMaker HyperPod clústeres de EKS -
Si usa etiquetas de tipo de instancia para definir las restricciones de programación, asegúrese de usar los tipos de instancias de SageMaker AI ML con el prefijo.
ml.Por ejemplo, para las instancias P5, utiliceml.p5.48xlargeen lugar dep5.48xlarge.
Consideraciones para configurar la red para SageMaker HyperPod clústeres con Amazon EKS
-
Cada instancia de HyperPod clúster admite una interfaz de red elástica (ENI). Para conocer la cantidad máxima de pods por tipo de instancia, consulte la siguiente tabla.
Tipo de instancia Número máximo de pods ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
De forma predeterminada, solo
hostNetwork = truelos pods con acceso al Amazon EC2 Instance Metadata Service (IMDS). Usa la identidad del pod de Amazon EKS o las funciones de IAM para las cuentas de servicio (IRSA) para administrar el acceso a AWS las credenciales de los pods. -
HyperPod Los clústeres orquestados por EKS admiten modos de direccionamiento IP dual, lo que permite la configuración con o IPv4 para los clústeres de IPv6 IPv6 Amazon EKS en entornos de subred y IPv6 VPC habilitados. Para obtener más información, consulte Configuración SageMaker HyperPod con una Amazon VPC personalizada.
Consideraciones sobre el uso de las funciones de resiliencia del clúster HyperPod
-
No se admite el reemplazo automático de nodos en las instancias de CPU.
-
El agente de supervisión del HyperPod estado debe estar instalado para que funcione la recuperación automática del nodo. El agente se puede instalar mediante Helm. Para obtener más información, consulte Instalación de paquetes en el clúster de Amazon EKS mediante Helm.
-
El agente de control HyperPod exhaustivo y supervisión del estado es compatible con las instancias GPU y Trn.
-
SageMaker La IA afecta de la siguiente manera a los nodos cuando se someten a controles de estado exhaustivos:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulablenota
No puede añadir taints personalizadas a los nodos de los grupos de instancias con la opción
DeepHealthChecksactivada.
Una vez que el clúster de Amazon EKS esté en ejecución, configúrelo con el administrador de paquetes Helm tal y como se indica Instalación de paquetes en el clúster de Amazon EKS mediante Helm antes de crear el HyperPod clúster.