Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Aprovisionamiento continuo para mejorar las operaciones de clúster en Amazon EKS
SageMaker HyperPod Los clústeres de Amazon creados con la orquestación de Amazon EKS ahora admiten el aprovisionamiento continuo, una nueva capacidad que permite una mayor flexibilidad y eficiencia al ejecutar cargas de trabajo a gran escala AI/ML . El aprovisionamiento continuo le permite empezar a entrenar rápidamente, escalar sin problemas, realizar tareas de mantenimiento sin interrumpir las operaciones y disponer de una visibilidad pormenorizada de las operaciones del clúster.
nota
El aprovisionamiento continuo está disponible para los HyperPod clústeres creados con la orquestación de EKS. Los clústeres creados con la orquestación de Slurm utilizan un modelo de escalado diferente.
Funcionamiento
El aprovisionamiento continuo funciona mediante una arquitectura basada en eventos que administra cada instancia de forma independiente. Cuando creas un HyperPod clúster, especificas la cantidad de instancias deseada para cada grupo de instancias. El sistema de aprovisionamiento continuo:
-
Acepta la solicitud: registra el recuento de instancias de destino para cada grupo de instancias
-
Inicia el aprovisionamiento: comienza a lanzar instancias para cumplir con el recuento objetivo
Realiza un seguimiento del progreso: supervisa cada intento de lanzamiento de una instancia y registra el estado
-
Gestiona los errores: reintenta automáticamente los lanzamientos fallidos
El aprovisionamiento continuo está desactivado de forma predeterminada. Para usar esta función, --node-provisioning-mode
configúrela Continuous
en.
Con el aprovisionamiento continuo activado, puede iniciar varias operaciones de escalado simultáneamente sin esperar a que se completen las operaciones anteriores. Esto te permite escalar diferentes grupos de instancias en el mismo clúster de forma simultánea y enviar varias solicitudes de escalado al mismo grupo de instancias.
El aprovisionamiento continuo también te da acceso a una supervisión detallada de los eventos DescribeClusterEventy a ListClusterEventuna visibilidad operativa, así como a una visibilidad operativa.
Medición del uso
HyperPod Los clústeres con aprovisionamiento continuo utilizan la medición a nivel de instancia para proporcionar una facturación precisa que refleje el uso real de los recursos. Este enfoque de medición se diferencia de la facturación tradicional a nivel de clúster, ya que rastrea cada instancia de forma independiente.
Facturación a nivel de instancia
Con el aprovisionamiento continuo, la facturación comienza y termina en el nivel de instancia individual en lugar de esperar a que cambien de estado a nivel de clúster. Este enfoque ofrece las siguientes ventajas:
-
Precisión de facturación precisa: la facturación comienza cuando comienza la ejecución del script de ciclo de vida. Si el script del ciclo de vida falla, se volverá a intentar aprovisionar la instancia y se le cobrará por la duración del tiempo de ejecución del script del ciclo de vida.
-
Medición independiente: el ciclo de vida de facturación de cada instancia se gestiona por separado, lo que evita errores de facturación en cascada
-
Actualizaciones de facturación en tiempo real: la facturación comienza cuando una instancia comienza a ejecutar su script de ciclo de vida y se detiene cuando la instancia entra en un estado de finalización
ciclo de vida de facturación
Cada instancia del HyperPod clúster sigue este ciclo de vida de facturación:
-
La facturación comienza: cuando la instancia se lanza correctamente y comienza a ejecutar su script de configuración del ciclo de vida
-
La facturación continúa: durante toda la vida operativa de la instancia
-
La facturación se detiene: cuando la instancia entra en un estado de finalización, independientemente del motivo de la finalización
nota
La facturación no se inicia en el caso de las instancias que no se lanzan. Si el lanzamiento de una instancia falla debido a una capacidad insuficiente u otros problemas, no se le cobrará por ese intento fallido. La facturación se calcula a nivel de instancia y los costes se agregan y se declaran en el nombre de recurso de Amazon (ARN) del clúster.
Cree un clúster con el aprovisionamiento continuo activado
nota
Debe tener un clúster de Amazon EKS existente configurado con una red de VPC y tener instalado el diagrama de Helm necesario. Además, prepare un script de configuración del ciclo de vida y cárguelo en un bucket de Amazon S3 al que pueda acceder su rol de ejecución.
La siguiente AWS CLI operación crea un HyperPod clúster con un grupo de instancias y el aprovisionamiento continuo activados.
aws sagemaker-dev create-cluster \ --cluster-name $HP_CLUSTER_NAME \ --orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \ --vpc-config '{ "SecurityGroupIds": ["'$SECURITY_GROUP'"], "Subnets": ["'$SUBNET'"] }' \ --instance-groups '{ "InstanceGroupName": "ig-1", "InstanceType": "ml.c5.2xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create_noop.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 1, "TrainingPlanArn": "" }' \ --node-provisioning-mode Continuous // Expected Output: { "ClusterArn": "arn:aws:sagemaker:us-west-2:<account-id>:cluster/<cluster-id>" }
Una vez que hayas creado el clúster, puedes usar ListClusterNodeso DescribeClusterNodepara obtener más información sobre los nodos del clúster.
Al llamar a estas operaciones, se devolverá un ClusterInstanceStatusDetailsobjeto con uno de los siguientes valores:
-
En ejecución: el nodo está en buen estado y está registrado en el orquestador de clústeres (EKS).
-
Error: se produjo un error en el aprovisionamiento del nodo, pero el sistema volverá a intentarlo automáticamente con una nueva instancia. EC2
-
Pendiente: el nodo se está aprovisionando o reiniciando.
-
ShuttingDown: La terminación del nodo está en curso. El nodo pasará al estado de fallo si se produce algún problema con la terminación o se eliminará correctamente del clúster.
-
SystemUpdating: El nodo está siendo parcheado por la AMI, ya sea de forma manual o como parte de la aplicación de parches a cronjobs.
-
DeepHealthCheckInProgress: Se están realizando controles de estado exhaustivos (DHCs). Esto puede tardar entre unos minutos y varias horas, según la naturaleza de las pruebas. Los nodos defectuosos se reemplazan y los nodos en buen estado pasan a estar en ejecución.
-
NotFound: Se utiliza como BatchAddClusterNodesrespuesta para indicar que se ha eliminado un nodo durante la reproducción idempotente.