As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Executando um trabalho de treinamento no HyperPod k8s
SageMaker HyperPod O Recipes oferece suporte ao envio de um trabalho de treinamento para um cluster GPU/Trainium Kubernetes. Antes de enviar a tarefa de treinamento, execute uma destas ações:
-
Modifique o arquivo de configuração
k8s.yamldo cluster. -
Substitua a configuração do cluster por meio da linha de comandos.
Depois de executar qualquer uma das etapas anteriores, instale o ambiente correspondente.
Configurar o cluster usando k8s.yaml
Para enviar uma tarefa de treinamento a um cluster do Kubernetes, especifique as configurações específicas do Kubernetes. As configurações incluem o namespace do cluster ou o local do volume persistente.
pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
-
pullPolicy: você pode especificar a política de extração ao enviar uma tarefa de treinamento. Se você especificar “Sempre”, o cluster do Kubernetes sempre extrairá sua imagem do repositório. Para ter mais informações, consulte Image pull policy. -
restartPolicy: especifique se deseja reiniciar a tarefa de treinamento se ela falhar. -
namespace: você pode especificar o namespace do Kubernetes para o qual você está enviando a tarefa de treinamento. -
persistent_volume_claims: você pode especificar um volume compartilhado para a tarefa de treinamento para que todos os processos de treinamento acessem os arquivos no volume.