Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Requisitos previos para utilizar SageMaker HyperPod
En las siguientes secciones se explican los requisitos previos antes de empezar. SageMaker HyperPod
Temas
SageMaker HyperPod cuotas
Puedes crear SageMaker HyperPod clústeres según las cuotas de uso de clústeres de tu AWS cuenta.
importante
Para obtener más información sobre SageMaker HyperPod los precios, consulta SageMaker HyperPod precios Amazon SageMaker Pricing
Consulta SageMaker HyperPod las cuotas de Amazon utilizando el Consola de administración de AWS
Busca los valores predeterminados y aplicados de una cuota, también conocida como límite, para el uso del clúster, que se utiliza para SageMaker HyperPod.
-
Abra la consola de Service Quotas
. -
En el panel de navegación de la izquierda, elija Servicios de AWS.
-
En la lista de AWSservicios, busca y selecciona Amazon SageMaker AI.
-
En la lista de cuotas de servicio, puede ver el nombre de la cuota de servicio, el valor aplicado (si está disponible), la cuota AWS predeterminada y si el valor de la cuota es ajustable.
-
En la barra de búsqueda, escriba uso del clúster. Se mostrarán las cuotas de uso del clúster, las cuotas aplicadas y las cuotas predeterminadas.
Lista de cuotas de servicio comunes para crear un HyperPod clúster y sus requisitos previos
Es posible que desee comprobar si ha solicitado aumentar el límite de las cuotas de servicio para las siguientes cuotas para crear un nuevo HyperPod clúster junto con los requisitos previos en la consola de IA. SageMaker Ve a la consola de Service Quota y busca los siguientes términos.
| No | Nombre de la cuota | Término de búsqueda | Description (Descripción) |
|---|---|---|---|
| 1 | Número máximo de instancias permitido por SageMaker HyperPod clúster | En SageMaker AI, busque «Número máximo de instancias permitido por SageMaker HyperPod clúster» | El valor de tu cuota a nivel de cuenta debe ser superior al número de instancias que deseas añadir a tu clúster |
| 2 | Tamaño máximo del volumen de EBS en GB para una instancia de clúster SageMaker HyperPod |
En SageMaker AI, busque «Tamaño máximo del volumen de EBS en GB para una instancia de HyperPod clúster» |
El valor de su cuota a nivel de cuenta debe ser superior al volumen de EBS que desea añadir a su clúster |
| 3 | Número total de instancias permitidas en los clústeres SageMaker HyperPod |
En SageMaker AI, busque «Número total de instancias permitidas en SageMaker HyperPod los clústeres» |
El valor de tu cuota a nivel de cuenta debe ser superior al total de instancias que deseas añadir a todos los clústeres de tu cuenta en conjunto |
| 4 |
Cuotas de instancias |
En SageMaker AI, busque «ml». «<instance_type>para uso en clústeres», por ejemplo: ml.p5.48xlarge para uso en clústeres. |
El valor de la cuota a nivel de cuenta para un tipo de instancia concreto (por ejemplo, ml.p5.48xlarge) debe ser superior al número de instancias que se van a añadir a todos los clústeres de la cuenta en conjunto. |
| 5 |
VPCs por región |
En Amazon Virtual Private Cloud (Amazon VPC), busque «VPCspor región» | El valor de la cuota a nivel de cuenta debe ser suficiente para crear una nueva VPC en la cuenta al configurar el clúster. HyperPod Comprueba si ya has agotado este límite de cuota consultando la consola de VPC. Este aumento de cuota solo es necesario si va a crear una nueva VPC mediante la opción de configuración de clústeres rápida o personalizada de la SageMaker HyperPod consola. |
| 6 |
Puertas de enlace de Internet por región |
En Amazon Virtual Private Cloud (Amazon VPC), busque «Puertas de enlace de Internet por región» |
El valor de la cuota a nivel de cuenta debe ser suficiente para crear una puerta de enlace de Internet adicional en la cuenta al configurar el clúster. SageMaker HyperPod Este aumento de cuota solo es necesario si va a crear una nueva VPC mediante la opción de configuración de clústeres rápida o personalizada de la SageMaker HyperPod consola. |
| 7 | Interfaces de red por región | En Amazon Virtual Private Cloud (Amazon VPC), busque «Interfaces de red por región» |
El valor de la cuota a nivel de cuenta debe tener suficientes interfaces de red en la cuenta al configurar el clúster. HyperPod |
| 8 | EC2-VPC elástico IPs | En Amazon Elastic Compute Cloud (Amazon EC2), busca «EC2-VPC Elastic» IPs | El valor de la cuota a nivel de cuenta debe ser suficiente para crear una nueva VPC en la cuenta al configurar el clúster. HyperPod Comprueba si ya has agotado este límite de cuota consultando la consola de VPC. Este aumento de cuota solo es necesario si va a crear una nueva VPC mediante la opción de configuración de clústeres rápida o personalizada de la SageMaker HyperPod consola. |
Solicita un aumento de SageMaker HyperPod cuota de Amazon mediante el Consola de administración de AWS
Aumente sus cuotas por cuenta o recurso.
-
Para aumentar la cuota de instancias para el uso del clúster, seleccione la cuota que desea aumentar.
-
Si la cuota es ajustable, puede solicitar un aumento de la cuota por cuenta o recurso en función del valor que aparezca en la columna de Capacidad de ajuste.
-
En Aumentar el valor de la cuota, introduzca el nuevo valor. El nuevo valor debe ser mayor que el valor actual.
-
Seleccione Solicitar.
-
Para ver las solicitudes pendientes o resueltas recientemente en la consola, acceda a la pestaña Historial de solicitudes de la página de detalles del servicio o elija Panel en el panel de navegación. Para las solicitudes pendientes, seleccione el estado de la solicitud para abrir la recepción de solicitud. El estado inicial de una solicitud es Pendiente. Cuando el estado cambie a Cuota solicitada, verás el número de caso conAWS Support. Elija el número de caso para abrir el ticket para su solicitud.
Para obtener más información sobre cómo solicitar un aumento de cuota en general, consulte Requesting a Quota Increase en la Guía de usuario de Service Quotas de AWS.
Configuración SageMaker HyperPod con una Amazon VPC personalizada
Para configurar un SageMaker HyperPod clúster con una Amazon VPC personalizada, revise los siguientes requisitos previos.
nota
La configuración de la VPC es obligatoria para la orquestación de Amazon EKS. Para la orquestación de Slurm, la configuración de la VPC es opcional.
-
Valide la capacidad de la Elastic Network Interface (ENI) Cuenta de AWS antes de crear un SageMaker HyperPod clúster con una VPC personalizada. Amazon controla el límite de ENI EC2 y varía segúnRegión de AWS. SageMaker HyperPod no puede solicitar automáticamente aumentos de cuota.
Para verificar su cuota de ENI actual:
-
Abra la consola de Service Quotas
. -
En la sección Administrar cuotas, usa la lista desplegable AWSServicios para buscar VPC.
-
Elija consultar las cuotas de Amazon Virtual Private Cloud (Amazon VPC).
-
Busque la cuota de servicio, las interfaces de red por región o el código de cuota
L-DF5E4CA3.
Si su límite de ENI actual no es suficiente para las necesidades de su SageMaker HyperPod clúster, solicite un aumento de cuota. Garantizar de antemano una capacidad de ENI adecuada ayuda a evitar errores en la implementación del clúster.
-
-
Cuando utilices una VPC personalizada para conectar un SageMaker HyperPod clúster con AWS recursos, proporciona el nombre, el ID, la subred y el grupo de seguridad de la VPC durante la IDs creación del clúster. Región de AWS IDs
nota
Cuando su Amazon VPC y sus subredes admiten IPv6 el
OverrideVPCConfigatributoVPCConfigde a nivel de clúster o de grupo de instanciasClusterInstanceGroupSpecification, las comunicaciones de red varían según la plataforma de organización del clúster:-
Los clústeres organizados por SLURM configuran automáticamente los nodos con direcciones IPv6 Y IPv4 duales, lo que permite una comunicación de red inmediata. IPv6 No se requiere ninguna configuración adicional aparte de la configuración.
VPCConfigIPv6 -
En los clústeres orquestados por EKS, los nodos reciben direcciones de doble pila, pero los pods solo se pueden usar cuando IPv6 el clúster de Amazon EKS está habilitado de forma explícita. IPv6 Debe crear un nuevo clúster de IPv6 Amazon EKS; los clústeres de IPv4 Amazon EKS existentes no se pueden convertir en IPv6. Para obtener información sobre la implementación de un clúster de IPv6 Amazon EKS, consulte Implementación de Amazon EKS IPv6 clústeres.
Recursos adicionales para la IPv6 configuración:
-
Para obtener información sobre cómo añadir IPv6 soporte a su VPC, consulte IPv6 Support for VPC.
-
Para obtener información sobre la creación de una nueva VPC IPv6 compatible, Amazon VPCconsulte la Guía de creación.
-
Para configurar SageMaker HyperPod con una Amazon VPC personalizada, consulte Configuración de Amazon VPC personalizada para. SageMaker HyperPod
-
-
Asegúrese de que todos los recursos estén desplegados en el mismo lugar que Región de AWS el SageMaker HyperPod clúster. Configure las reglas del grupo de seguridad para permitir la comunicación entre recursos dentro de la VPC. Por ejemplo, al crear una VPC en
us-west-2, aprovisione subredes en una o más zonas de disponibilidad (comous-west-2aous-west-2b) y cree un grupo de seguridad que permita el tráfico dentro del grupo.nota
SageMaker HyperPod admite el despliegue en zonas de disponibilidad múltiple. Para obtener más información, consulte Configuración de clústeres en varios SageMaker HyperPod AZs.
-
Establezca la conectividad Amazon Simple Storage Service (Amazon S3) para los grupos de SageMaker HyperPod instancias implementados por VPC mediante la creación de un punto de enlace de VPC. Sin acceso a Internet, los grupos de instancias no pueden almacenar ni obtener scripts de ciclo de vida, datos de entrenamiento ni artefactos de modelos. Le recomendamos que cree una política de IAM personalizada que restrinja el acceso al bucket de Amazon S3 a la VPC privada. Para obtener más información, consulte Endpoints for Amazon S3 en la Guía del usuario de Amazon VPC de AWS PrivateLink.
-
En el caso de HyperPod los clústeres que utilizan instancias habilitadas para Elastic Fabric Adapter (EFA), configure el grupo de seguridad para permitir que todo el tráfico entrante y saliente entre y hacia el propio grupo de seguridad. En concreto, evite utilizar
0.0.0.0/0para reglas de salida, ya que esto podría provocar errores en las comprobaciones de estado de EFA. Para obtener más información sobre las pautas de preparación de grupos de seguridad de EFA, consulte Paso 1: Preparar un grupo de seguridad habilitado para EFA en la Guía del usuario de Amazon EC2 . -
Tenga en cuenta detenidamente el tamaño del bloque de enrutamiento entre dominios sin clase (CIDR) de su subred antes de crear clústeres. HyperPod
-
El tamaño del bloque de CIDR de la subred ya no se puede cambiar una vez creado. Esto es especialmente importante cuando se utilizan instancias aceleradas de gran tamaño, como las P5. Si el tamaño del bloque es insuficiente, debe volver a crear los clústeres al escalarlos verticalmente.
-
Al elegir el tamaño del bloque de CIDR de la subred adecuado, tenga en cuenta estos factores: los tipos de instancia, el número de instancias esperado y el número de direcciones IP que consume cada instancia.
-
En el caso de los clústeres orquestados por Slurm, cada instancia P5 puede crear 32 direcciones IP (una por cada tarjeta de red). En el caso de los clústeres orquestados por EKS, cada instancia P5 puede crear 81 direcciones IP (50 de la tarjeta principal y una de cada una de las 31 tarjetas restantes). Para obtener especificaciones detalladas, consulte las especificaciones de red en la Guía para desarrolladores de tipos de EC2 instancias de Amazon.
-
Para ver ejemplos de CloudFormation plantillas que especifican el tamaño del bloque CIDR de la subred, consulte la plantilla HyperPod Slurm y la plantilla HyperPod
Amazon EKS en el repositorio. awsome-distributed-training
-
Configuración de clústeres en varios SageMaker HyperPod AZs
Puede configurar SageMaker HyperPod los clústeres en varias zonas de disponibilidad (AZs) para mejorar la fiabilidad y la disponibilidad.
nota
El tráfico del Elastic Fabric Adapter (EFA) no puede cruzar o. AZs VPCs Esto no se aplica al tráfico de IP normal desde el dispositivo de ENA de una interfaz EFA. Para obtener más información, consulte Limitaciones de EFA.
-
Comportamiento predeterminado
HyperPod implementa todas las instancias del clúster en una única zona de disponibilidad. La configuración de la VPC determina la AZ de implementación:
-
Para los clústeres orquestados por Slurm, la configuración de la VPC es opcional. Cuando no se proporciona ninguna configuración de VPC, el HyperPod valor predeterminado es una subred de la VPC de la plataforma.
-
Para los clústeres orquestados por EKS, la configuración de la VPC es obligatoria.
-
Para los orquestadores Slurm y EKS, cuando
VpcConfigse proporciona, HyperPod selecciona una subred de la lista de subredes proporcionada.VpcConfigTodos los grupos de instancias heredan la AZ de la subred.
nota
Después de crear un clúster, no podrás modificar la configuración de su
VpcConfig.Para obtener más información sobre la configuración de los HyperPod clústeres, consulte VPCs la sección anterior,. Configuración SageMaker HyperPod con una Amazon VPC personalizada
-
-
Configuración de múltiples zonas de disponibilidad
Puedes configurar tu HyperPod clúster en varios grupos AZs al crear un clúster o al añadir un nuevo grupo de instancias a un clúster existente. Para configurar las implementaciones multi-AZ, puede anular la configuración de la VPC predeterminada del clúster especificando diferentes subredes y grupos de seguridad, si es posible en diferentes zonas de disponibilidad, para los grupos de instancias individuales de su clúster.
SageMaker HyperPod Los usuarios de la API pueden usar la
OverrideVpcConfigpropiedad incluida en o ClusterInstanceGroupSpecificationcuando trabajen conCreateClusteroUpdateClusterAPIs.El campo
OverrideVpcConfig:-
No se puede modificar una vez creado el grupo de instancias.
-
Es opcional. Si no se especifica, se utiliza el nivel de clúster
VpcConfigde forma predeterminada. -
En el caso de los clústeres orquestados por Slurm, solo se puede especificar cuando se proporciona el nivel de clúster
VpcConfig. Si no se especificaVpcConfigpara el nivel de clúster,OverrideVpcConfigno se puede usar para ningún grupo de instancias. -
Contiene dos campos obligatorios:
-
Subnets- acepta entre 1 y 16 subredes IDs -
SecurityGroupIds- acepta entre 1 y 5 grupos de seguridad IDs
-
Para obtener más información sobre la creación o actualización de un SageMaker HyperPod clúster mediante la interfaz de usuario de la SageMaker HyperPod consola oAWS CLI:
-
Orquestación de Slurm: consulte Funcionamiento de clústeres orquestados por Slurm. HyperPod
-
Orquestación de EKS: HyperPodConsulte Funcionamiento de clústeres orquestados por EKS.
-
nota
Al ejecutar cargas de trabajo en varios AZs, tenga en cuenta que la comunicación de red entre AZs ellas introduce una latencia adicional. Tenga en cuenta este efecto al diseñar aplicaciones a las que les afecta la latencia.
Configurar AWS Systems Manager y ejecutar como para el control de acceso de los usuarios del clúster
SageMaker HyperPod DLAMIviene con AWS Systems Manager
nota
Al conceder a los usuarios el acceso a los nodos del HyperPod clúster, pueden instalar y utilizar software gestionado por los usuarios en los nodos. Asegúrese de cumplir con el principio de conceder privilegios mínimos a los usuarios.
Habilitar Ejecutar como en su cuenta AWS
Como administrador de AWS cuentas o administrador de la nube, puede administrar el acceso a SageMaker HyperPod los clústeres a nivel de usuario o rol de IAM mediante la función Ejecutar como de SSM. Con esta característica, puede iniciar cada sesión de SSM con el usuario del sistema operativo asociado al usuario o rol de IAM.
Para activar la función Ejecutar como en tu AWS cuenta, sigue los pasos que se indican en Activar la compatibilidad con Ejecutar como para los nodos gestionados de Linux y macOS. Si ya ha creado usuarios de sistema operativo en su clúster, asegúrese de asociarlos a roles o usuarios de IAM etiquetándolos como se indica en la Opción 2 del paso 5 de la sección Activación del soporte Ejecutar como para nodos administrados de Linux y macOS.
(Opcional) Configuración SageMaker HyperPod con Amazon FSx for Lustre
Para empezar a usar SageMaker HyperPod y mapear las rutas de datos entre el clúster y su sistema de archivos de FSx For Lustre, seleccione una de las Regiones de AWS opciones compatibles con. SageMaker HyperPod Tras elegir la Región de AWS que prefiera, también debe determinar qué zona de disponibilidad (AZ) utilizar.
Si utiliza nodos de SageMaker HyperPod cómputo AZs distintos de aquel en el AZs que está configurado el sistema de archivos de FSx For LustreRegión de AWS, es posible que se produzca una sobrecarga de comunicación y de red. Le recomendamos que utilice la misma zona de disponibilidad física que la de la cuenta de SageMaker HyperPod servicio para evitar cualquier tráfico entre zonas de disponibilidad entre los SageMaker HyperPod clústeres y su sistema de archivos de FSx For Lustre. Asegúrese de haberla configurado también con su VPC. Si desea utilizar Amazon FSx como sistema de archivos principal para el almacenamiento, debe configurar SageMaker HyperPod los clústeres con su VPC.