La gobernanza de las tareas de Interactive Spaces está en HyperPod - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

La gobernanza de las tareas de Interactive Spaces está en HyperPod

En esta sección, se explica cómo optimizar los clústeres de Amazon SageMaker HyperPod EKS compartidos para las cargas de trabajo de Interactive Spaces. Aprenderá a configurar las funciones de gobierno de tareas de Kueue, incluidas la administración de cuotas, la programación prioritaria y las políticas de intercambio de recursos, para garantizar que sus cargas de trabajo de desarrollo se ejecuten sin interrupciones y, al mismo tiempo, mantener una asignación justa entre las actividades de formación, evaluación y procesamiento por lotes de sus equipos.

Cómo funciona la gestión del espacio interactivo

Para gestionar eficazmente los espacios interactivos en clústeres de HyperPod EKS compartidos, implemente las siguientes estrategias de gobierno de tareas utilizando las capacidades existentes de Kueue.

Configuración de las clases de prioridad

Defina clases prioritarias específicas para los espacios interactivos con un peso elevado (por ejemplo, 100) a fin de garantizar que los módulos de desarrollo se admitan y programen antes que otros tipos de tareas. Esta configuración permite a Interactive Spaces evitar las tareas de menor prioridad durante la carga del clúster, lo cual es fundamental para mantener flujos de trabajo de desarrollo ininterrumpidos.

Dimensiones y asignación de cuotas

Reserva suficientes recursos de cómputo en tu equipo ClusterQueue para gestionar las cargas de trabajo de desarrollo esperadas. Durante los períodos en los que los recursos de desarrollo están inactivos, los recursos de cuota no utilizados se pueden asignar temporalmente a las tareas de otros equipos. Cuando la demanda de desarrollo aumente, estos recursos prestados se pueden recuperar para dar prioridad a los módulos de Interactive Space pendientes.

Estrategias de uso compartido de recursos

Elija entre dos enfoques de uso compartido de cuotas en función de sus requisitos:

Control estricto de los recursos: desactive las cuotas de préstamo y los préstamos para garantizar que la capacidad de cómputo reservada esté siempre disponible para sus Interactive Spaces. Este enfoque requiere cuotas de tamaño lo suficientemente grandes como para gestionar de forma independiente los picos de demanda de desarrollo y puede provocar que los nodos estén inactivos durante los períodos de bajo uso.

Uso compartido flexible de recursos: habilite el préstamo de cuotas para que otros equipos puedan utilizar los recursos de desarrollo inactivos cuando sea necesario. Sin embargo, deshabilite los préstamos para garantizar que Interactive Spaces nunca funcione con recursos prestados y recuperables que podrían provocar desalojos inesperados.

Preferencia dentro del equipo

Activa la prevención dentro del equipo cuando ejecutes cargas de trabajo mixtas (formación, evaluación y espacios interactivos) por debajo de la misma cuota. Esto le permite a Kueue evitar los trabajos de menor prioridad dentro de su equipo para dar cabida a los módulos de Interactive Space de alta prioridad, lo que garantiza que el trabajo de desarrollo pueda continuar sin tener que depender de cuotas externas.

Ejemplo de configuración de Interactive Space

El siguiente ejemplo muestra cómo Kueue administra los recursos de cómputo de Interactive Spaces en un clúster compartido de Amazon SageMaker HyperPod .

Configuración de clústeres y configuración de políticas

El clúster tiene la siguiente configuración:

  • Team Alpha (equipo de desarrollo): cuota de 8 CPU para Interactive Spaces

  • Equipo Beta (ML Team): cuota de 16 CPU para formación y evaluación

  • Equipo Gamma (Investigación): cuota de 6 CPU para experimentación

  • Aprovisionamiento estático: sin escalado automático

  • Capacidad total: 30 CPUs

El grupo de CPU compartido usa esta política de prioridad:

  • Espacios interactivos: prioridad 100

  • Entrenamiento: prioridad de 75

  • Evaluación: prioridad de 50

  • Procesamiento por lotes: prioridad 25

Kueue impone las cuotas de equipo y las clases prioritarias, con la opción preferente habilitada y el préstamo desactivado para el equipo de desarrollo.

Estado inicial: uso normal del clúster

En operaciones normales:

  • Equipo Alpha: ejecuta 6 espacios interactivos usando 6 CPUs, 2 CPUs inactivos

  • Equipo Beta: Realiza tareas de formación (12 CPUs) y de evaluación (4 CPUs) dentro de su cuota de 16 CPU

  • Team Gamma: ejecuta cargas de trabajo de investigación en los 6 CPUs

  • Uso compartido de recursos: el equipo Beta toma prestada la batería inactiva del equipo Alpha 2 CPUs para recibir formación adicional

Pico de desarrollo: el equipo Alpha requiere recursos adicionales

Cuando los desarrolladores de Team Alpha necesitan ampliar el trabajo de desarrollo, los módulos adicionales de Interactive Space requieren 4 más CPUs. Kueue detecta que los nuevos pods:

  • Dentro del espacio de nombres de Team Alpha

  • Prioridad 100 (espacios interactivos)

  • Todavía no se han admitido debido a limitaciones de cuota

El proceso de respuesta de Kueue

Kueue sigue un proceso de tres pasos para asignar recursos:

  1. Verificación de cuotas

    Pregunta: ¿El equipo Alpha tiene una cuota no utilizada?

    • Uso actual: 6 CPUs usados, 2 CPUs disponibles

    • Nuevo requisito: se CPUs necesitan 4

    • Resultado: Cuota insuficiente → Continúe con el paso 2

  2. Autoprevención en el equipo Alpha

    Pregunta: ¿Se pueden evitar los trabajos de menor prioridad del Equipo Alpha?

    • Objetivos disponibles: No hay trabajos de menor prioridad en el Equipo Alpha

    • Resultado: No hay opción preferente → Continúe con el paso 3

  3. Recupera los recursos prestados

    Pregunta: ¿Otros equipos están tomando prestados los recursos del Equipo Alpha?

    • Recursos prestados: el equipo beta usa 2 CPUs del equipo Alpha

    • Acción: Kueue desaloja las cápsulas de entrenamiento prestadas por el equipo Beta y libera 2 CPUs

    • Aún se necesitan 2 más CPUs → Los espacios interactivos permanecerán en el NotAdmitted estado hasta que se disponga de los recursos

Este enfoque da prioridad a los espacios interactivos y, al mismo tiempo, mantiene los límites de las cuotas de los equipos y evita que el trabajo de desarrollo se lleve a cabo con recursos prestados e inestables.