As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execução de trabalhos em SageMaker HyperPod clusters orquestrados pelo Amazon EKS
Os tópicos a seguir fornecem procedimentos e exemplos de acesso a nós de computação e execução de cargas de trabalho de ML em clusters provisionados SageMaker HyperPod orquestrados com o Amazon EKS. Dependendo de como você configurou o ambiente em seu HyperPod cluster, há muitas maneiras de executar cargas de trabalho de ML em HyperPod clusters.
nota
Ao executar trabalhos por meio da SageMaker HyperPod CLI ou do kubectl, HyperPod pode rastrear a utilização da computação (horas de GPU/CPU) em namespaces (equipes). Essas métricas potencializam os relatórios de uso, que fornecem:
-
Visibilidade do consumo de recursos alocados versus emprestados
-
Utilização de recursos de equipes para auditoria (até 180 dias)
-
Atribuição de custos alinhada às políticas de governança de tarefas
Para usar relatórios de uso, você deve instalar a infraestrutura de relatórios de uso. É altamente recomendável configurar a governança de tarefas para impor cotas de computação e permitir a atribuição granular de custos.
Para obter mais informações sobre como configurar e gerar relatórios de uso, consulte Relatar o uso de computação em HyperPod.
dica
Para uma experiência prática e orientação sobre como configurar e usar um SageMaker HyperPod cluster orquestrado com o Amazon EKS, recomendamos fazer este workshop de suporte do Amazon EKS
Os usuários de cientistas de dados podem treinar modelos básicos usando o conjunto de clusters EKS como orquestrador do cluster. SageMaker HyperPod Os cientistas utilizam a SageMaker HyperPod CLIkubectl
comandos nativos para encontrar SageMaker HyperPod clusters disponíveis, enviar trabalhos de treinamento (Pods) e gerenciar suas cargas de trabalho. A SageMaker HyperPod CLI permite o envio de trabalhos usando um arquivo de esquema de trabalho de treinamento e fornece recursos para listagem, descrição, cancelamento e execução de trabalhos. Os cientistas podem usar o Kubeflow Training Operator