Executando um trabalho de treinamento no HyperPod k8s - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Executando um trabalho de treinamento no HyperPod k8s

SageMaker HyperPod O Recipes oferece suporte ao envio de um trabalho de treinamento para um cluster GPU/Trainium Kubernetes. Antes de enviar a tarefa de treinamento, execute uma destas ações:

  • Modifique o arquivo de configuração k8s.yaml do cluster.

  • Substitua a configuração do cluster por meio da linha de comandos.

Depois de executar qualquer uma das etapas anteriores, instale o ambiente correspondente.

Configurar o cluster usando k8s.yaml

Para enviar uma tarefa de treinamento a um cluster do Kubernetes, especifique as configurações específicas do Kubernetes. As configurações incluem o namespace do cluster ou o local do volume persistente.

pullPolicy: Always restartPolicy: Never namespace: default persistent_volume_claims: - null
  1. pullPolicy: você pode especificar a política de extração ao enviar uma tarefa de treinamento. Se você especificar “Sempre”, o cluster do Kubernetes sempre extrairá sua imagem do repositório. Para ter mais informações, consulte Image pull policy.

  2. restartPolicy: especifique se deseja reiniciar a tarefa de treinamento se ela falhar.

  3. namespace: você pode especificar o namespace do Kubernetes para o qual você está enviando a tarefa de treinamento.

  4. persistent_volume_claims: você pode especificar um volume compartilhado para a tarefa de treinamento para que todos os processos de treinamento acessem os arquivos no volume.