Configuração de governança de tarefas - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configuração de governança de tarefas

Esta seção inclui informações sobre como configurar o complemento EKS de governança de SageMaker HyperPod tarefas da Amazon. Isso inclui a concessão de permissões que permitem definir a priorização de tarefas, a alocação de computação para equipes, como a computação ociosa é compartilhada e a preempção de tarefas para equipes.

Se você estiver tendo problemas na configuração, consulte as soluções Solução de problemas de solução de problemas conhecidas.

Configurações do Kueue

HyperPod O complemento EKS de governança de tarefas instala o Kueue para seus clusters EKS. HyperPod O Kueue é um sistema nativo do Kubernetes que gerencia cotas e como os trabalhos as consomem.

Versão complementar de governança de HyperPod tarefas do EKS Versão do Kueue que é instalada como parte do complemento A versão kube-rbac-proxy disso é instalada como parte do complemento

v1.0.0

v0.8.1

v0.18.1

HyperPod a governança de tarefas aproveita o Kueue para enfileiramento, agendamento e gerenciamento de cotas de trabalhos nativos do Kubernetes e é instalada com o complemento EKS de governança de tarefas. HyperPod Quando instalado, HyperPod cria e modifica recursos Kubernetes SageMaker gerenciados por IAKueueManagerConfig, como,,, e. ClusterQueues LocalQueues WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Embora os administradores do Kubernetes tenham a flexibilidade de modificar o estado desses recursos, é possível que qualquer alteração feita em um recurso SageMaker gerenciado por IA seja atualizada e substituída pelo serviço.

As informações a seguir descrevem as configurações utilizadas pelo complemento de governança de HyperPod tarefas para configurar o Kueue.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8080 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Para obter mais informações sobre cada entrada de configuração, consulte Configuração na documentação do Kueue.

HyperPod Pré-requisitos de governança de tarefas

HyperPod configuração de governança de tarefas

A seguir, são apresentadas informações sobre como configurar a governança de HyperPod tarefas.

Setup using the SageMaker AI console

Veja a seguir informações sobre como configurar a governança de HyperPod tarefas usando o SageMaker HyperPod console.

Você já tem todas as permissões a seguir anexadas se já tiver concedido permissões para gerenciar o Amazon CloudWatch Observability EKS e visualizar o painel do HyperPod cluster por meio do console de SageMaker IA noHyperPod Configuração do complemento Amazon CloudWatch Observability EKS. Se você não configurou isso, use o exemplo de política abaixo para conceder permissões para gerenciar o complemento de governança de HyperPod tarefas e visualizar o painel do HyperPod cluster por meio do console de SageMaker IA.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Navegue até a guia Painel no SageMaker HyperPod console para instalar o complemento de governança de SageMaker HyperPod tarefas da Amazon.

Setup using the Amazon EKS AWS CLI

Use o AWS CLI comando create-addonEKS de exemplo para configurar a governança de HyperPod tarefas, a API Amazon EKS e a interface do console do Amazon EKS usando AWS CLI:

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Você pode ver a guia Políticas no console de HyperPod SageMaker IA se a instalação for bem-sucedida. Você também pode usar o seguinte exemplo de AWS CLI comando describe-addonEKS para verificar o status.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance