As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Configuração de governança de tarefas
Esta seção inclui informações sobre como configurar o complemento EKS de governança de SageMaker HyperPod tarefas da Amazon. Isso inclui a concessão de permissões que permitem definir a priorização de tarefas, a alocação de computação para equipes, como a computação ociosa é compartilhada e a preempção de tarefas para equipes.
Se você estiver tendo problemas na configuração, consulte as soluções Solução de problemas de solução de problemas conhecidas.
Tópicos
Configurações do Kueue
HyperPod O complemento EKS de governança de tarefas instala o Kueue para seus clusters EKS
Versão complementar de governança de HyperPod tarefas do EKS | Versão do Kueue que é instalada como parte do complemento | A versão kube-rbac-proxy disso é instalada como parte do complemento |
---|---|---|
v1.0.0 |
v0.8.1 |
v0.18.1 |
HyperPod a governança de tarefas aproveita o Kueue para enfileiramento, agendamento e gerenciamento de cotas de trabalhos nativos do Kubernetes e é instalada com o complemento EKS de governança de tarefas. HyperPod Quando instalado, HyperPod cria e modifica recursos Kubernetes SageMaker gerenciados por IAKueueManagerConfig
, como,,, e. ClusterQueues
LocalQueues
WorkloadPriorityClasses
ResourceFlavors
ValidatingAdmissionPolicies
Embora os administradores do Kubernetes tenham a flexibilidade de modificar o estado desses recursos, é possível que qualquer alteração feita em um recurso SageMaker gerenciado por IA seja atualizada e substituída pelo serviço.
As informações a seguir descrevem as configurações utilizadas pelo complemento de governança de HyperPod tarefas para configurar o Kueue.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8080 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
Para obter mais informações sobre cada entrada de configuração, consulte Configuração
HyperPod Pré-requisitos de governança de tarefas
-
Certifique-se de ter a política de permissão mínima para administradores de HyperPod cluster, emUsuários do IAM para administração de cluster. Isso inclui permissões para executar o SageMaker HyperPod núcleo APIs, gerenciar SageMaker HyperPod clusters dentro do seu Conta da AWS e realizar as tarefas emGerenciamento de SageMaker HyperPod clusters orquestrados pelo Amazon EKS.
-
Você precisará ter sua versão do Kubernetes >= 1.30. Para obter instruções, consulte Atualizar clusters existentes para a nova versão do Kubernetes.
-
Se você já tem o Kueue instalado em seus clusters, desinstale o Kueue antes de instalar o complemento EKS.
-
Um HyperPod nó já deve existir no cluster EKS antes de instalar o complemento de governança de HyperPod tarefas.
HyperPod configuração de governança de tarefas
A seguir, são apresentadas informações sobre como configurar a governança de HyperPod tarefas.
Você pode ver a guia Políticas no console de HyperPod SageMaker IA se a instalação for bem-sucedida. Você também pode usar o seguinte exemplo de AWS CLI comando describe-addon
aws eks describe-addon --region
region
--cluster-namecluster-name
--addon-name amazon-sagemaker-hyperpod-taskgovernance