Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
¿Estás realizando un trabajo de entrenamiento en k8s HyperPod
SageMaker HyperPod Recipes permite enviar un trabajo de formación a un clúster de GPU/Trainium Kubernetes. Antes de enviar el trabajo de entrenamiento, realice una de las acciones siguientes:
-
Modifique el archivo de configuración del clúster
k8s.yaml. -
Anule la configuración del clúster mediante la línea de comandos.
Tras realizar cualquiera de los pasos anteriores, instale el entorno correspondiente.
Configuración del clúster con k8s.yaml
Para enviar un trabajo de entrenamiento a un clúster de Kubernetes, debe especificar las configuraciones específicas de Kubernetes. Las configuraciones incluyen el espacio de nombres del clúster o la ubicación del volumen persistente.
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy: puede especificar la política de extracción al enviar un trabajo de entrenamiento. Si especifica “Always”, el clúster de Kubernetes siempre extraerá su imagen del repositorio. Para obtener más información, consulte Política de extracción de imágenes. -
restartPolicy: especifique si desea reiniciar el trabajo de entrenamiento en caso de que no funcione. -
namespace: puede especificar el espacio de nombres de Kubernetes al que va a enviar el trabajo de entrenamiento. -
persistent_volume_claims: puede especificar un volumen compartido para su trabajo de entrenamiento para que todos los procesos de formación accedan a los archivos del volumen.