Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Gobierno de tareas para el despliegue del modelo en HyperPod
En esta sección, se explica cómo optimizar los clústeres de Amazon SageMaker HyperPod EKS compartidos para cargas de trabajo de inferencia en tiempo real. Aprenderá a configurar las funciones de gobierno de tareas de Kueue, incluidas la administración de cuotas, la programación de prioridades y las políticas de intercambio de recursos, para garantizar que sus cargas de trabajo de inferencia reciban los recursos de GPU que necesitan durante los picos de tráfico y, al mismo tiempo, mantener una asignación justa entre las actividades de formación, evaluación y pruebas de sus equipos. Para obtener SageMaker HyperPod gobierno de tareas más información general sobre la gobernanza de las tareas, consulte.
Cómo funciona la gestión de la carga de trabajo por inferencia
Para gestionar eficazmente los picos de tráfico de inferencia en tiempo real en los clústeres de HyperPod EKS compartidos, implementa las siguientes estrategias de gobierno de tareas utilizando las capacidades existentes de Kueue.
Configuración de clases prioritarias
Defina clases prioritarias específicas para las cargas de trabajo de inferencia con un peso elevado (por ejemplo, 100) a fin de garantizar que los módulos de inferencia se admitan y programen antes que otros tipos de tareas. Esta configuración permite que las cargas de trabajo de inferencia se antepongan a las tareas de menor prioridad durante la carga del clúster, lo cual es fundamental para mantener los requisitos de baja latencia durante los picos de tráfico.
Dimensionamiento y asignación de las cuotas
Reserva suficientes recursos de GPU en la de tu equipo ClusterQueue
para gestionar los picos de inferencia esperados. Durante los períodos de bajo tráfico de inferencias, los recursos de cuota no utilizados se pueden asignar temporalmente a las tareas de otros equipos. Cuando la demanda de inferencias aumenta, estos recursos prestados se pueden recuperar para priorizar los módulos de inferencia pendientes. Para obtener más información, consulte Cluster Queue.
Estrategias de intercambio de recursos
Elija entre dos enfoques de reparto de cuotas en función de sus requisitos:
-
Control estricto de los recursos: desactive las cuotas de préstamo y los préstamos para garantizar que la capacidad reservada de la GPU esté siempre disponible para sus cargas de trabajo. Este enfoque requiere un tamaño de cuotas lo suficientemente grande como para gestionar de forma independiente los picos de demanda y puede provocar que los nodos estén inactivos durante los períodos de poco tráfico.
-
Uso compartido flexible de recursos: habilite el préstamo de cuotas para utilizar los recursos inactivos de otros equipos cuando sea necesario. Las cápsulas prestadas se marcan como preferentes y pueden ser desalojadas si el equipo que las presta recupera su capacidad.
Prioridad dentro del equipo
Habilite la prevención dentro del equipo al ejecutar cargas de trabajo mixtas (evaluación, formación e inferencia) por debajo de la misma cuota. Esto le permite a Kueue evitar los trabajos de menor prioridad dentro de su equipo para adaptarse a los módulos de inferencia de alta prioridad, lo que garantiza que las inferencias en tiempo real se puedan ejecutar sin depender de la toma de cuotas externas. Para obtener más
Ejemplo de configuración de carga de trabajo de inferencia
El siguiente ejemplo muestra cómo Kueue administra los recursos de GPU en un clúster de Amazon SageMaker HyperPod compartido.
Configuración del clúster y configuración de políticas
El clúster tiene la siguiente configuración:
-
Equipo A: cuota de 10 GPU P4
-
Equipo B: cuota de GPU de 20 P4
-
Aprovisionamiento estático: sin escalado automático
-
Capacidad total: 30 P4 GPUs
El grupo de GPU compartido usa esta política de prioridad:
-
Inferencia en tiempo real: prioridad 100
-
Capacitación: prioridad 75
-
Evaluación: prioridad 50
Kueue aplica las cuotas de los equipos y las clases prioritarias, y habilita la preferencia y el préstamo de cuotas.
Estado inicial: uso normal del clúster
En operaciones normales:
-
El equipo A realiza tareas de formación y evaluación en los 10 puestos de categoría P-4 GPUs
-
El equipo B realiza inferencias (10 P4) y evaluaciones (10 P4) en tiempo real dentro de su cuota de 20 GPU
-
El clúster se utiliza al máximo y todos los trabajos están admitidos y en ejecución
Pico de inferencia: el equipo B necesita más GPUs
Cuando el equipo B sufre un pico de tráfico, los módulos de inferencia adicionales requieren 5 P4 más. GPUs Kueue detecta que los nuevos módulos son:
-
Dentro del espacio de nombres del equipo B
-
Prioridad 100 (inferencia en tiempo real)
-
Admisión pendiente debido a limitaciones de cuota
El proceso de respuesta de Kueue elige entre dos opciones:
Opción 1: préstamo de cuotas: si el equipo A usa solo 6 de sus 10 P4, Kueue puede admitir las cápsulas del equipo B con las 4 P4 inactivas. Sin embargo, estos recursos prestados son evitables: si el equipo A envía puestos de trabajo para alcanzar su cuota total, Kueue desaloja los módulos de inferencia prestados por el equipo B.
Opción 2: Autoprevención (recomendada): el equipo B ejecuta tareas de evaluación de baja prioridad (prioridad 50). Cuando los módulos de inferencia de alta prioridad están esperando, Kueue se antepone a los trabajos de evaluación dentro de la cuota del equipo B y los admite. Este enfoque proporciona una asignación segura de los recursos sin riesgo de desalojo externo.
Kueue sigue un proceso de tres pasos para asignar los recursos:
-
Verificación de cuotas
Pregunta: ¿El equipo B tiene una cuota no utilizada?
-
Sí → Admita las cápsulas
-
No → Continúe con el paso 2
-
-
Autoprevención dentro del equipo B
Pregunta: ¿Se pueden evitar los trabajos de menor prioridad del Equipo B?
-
Sí → Elimine los trabajos de evaluación (prioridad 50), libere 5 P4 y admita módulos de inferencia
-
No → Continúe con el paso 3
Este enfoque mantiene las cargas de trabajo dentro de la cuota garantizada por el Equipo B, lo que evita los riesgos de desalojo externo.
-
-
¿Préstamos de otros equipos
Pregunta: ¿Hay una cuota ociosa que se pueda pedir prestada a otros equipos?
-
Sí → Admite el uso de una cuota prestada (marcada como preferente)
-
No → El pod permanece en estado
NotAdmitted
-