Ejecución de tareas en SageMaker HyperPod clústeres orquestados por Amazon EKS - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecución de tareas en SageMaker HyperPod clústeres orquestados por Amazon EKS

En los siguientes temas, se proporcionan procedimientos y ejemplos de acceso a nodos de procesamiento y ejecución de cargas de trabajo de aprendizaje automático en SageMaker HyperPod clústeres aprovisionados orquestados con Amazon EKS. En función de cómo haya configurado el entorno de su HyperPod clúster, hay muchas maneras de ejecutar cargas de trabajo de aprendizaje automático en clústeres. HyperPod

nota

Al ejecutar trabajos a través de la SageMaker HyperPod CLI o kubectl, HyperPod puede realizar un seguimiento del uso del procesamiento (horas de GPU/CPU) en todos los espacios de nombres (equipos). Estas métricas impulsan los informes de uso, que proporcionan:

  • Visibilidad del consumo de recursos asignados frente al consumo prestado

  • Utilización de los recursos de los equipos para la auditoría (hasta 180 días)

  • Atribución de costos alineada con las políticas de gobierno de tareas

Para utilizar los informes de uso, debe instalar la infraestructura de informes de uso. Recomendamos encarecidamente configurar la gobernanza de tareas para hacer cumplir las cuotas de cómputo y permitir una atribución granular de los costes.

Para obtener más información sobre cómo configurar y generar informes de uso, consulte Cómo informar sobre el uso de los recursos informáticos en HyperPod.

sugerencia

Para obtener una experiencia práctica y orientación sobre cómo configurar y usar un SageMaker HyperPod clúster organizado con Amazon EKS, le recomendamos que asista a este taller de Amazon EKS Support. SageMaker HyperPod

Los usuarios científicos de datos pueden entrenar modelos fundamentales utilizando el conjunto de clústeres de EKS como orquestador del clúster. SageMaker HyperPod Los científicos utilizan la SageMaker HyperPod CLI y los kubectl comandos nativos para encontrar SageMaker HyperPod los clústeres disponibles, enviar trabajos de formación (pods) y gestionar sus cargas de trabajo. La SageMaker HyperPod CLI permite el envío de trabajos mediante un archivo de esquema de trabajo de formación y proporciona capacidades para la publicación, descripción, cancelación y ejecución de trabajos. Los científicos pueden usar Kubeflow Training Operator de acuerdo con las cuotas de cómputo gestionadas por la SageMaker IA y gestionadas por HyperPod la IA MLflow para gestionar los experimentos de aprendizaje automático y las sesiones de formación.