任务治理设置
此部分包括有关如何设置 Amazon SageMaker HyperPod 任务治理 EKS 加载项的信息。这包括授予权限,以允许您设置任务优先级、团队的计算资源分配、空闲计算资源的共享方式以及团队的任务抢占。
如果您在设置时遇到问题,请参阅故障排除以获取已知的故障排除解决方案。
Kueue 设置
HyperPod 任务治理 EKS 加载项安装适用于 HyperPod EKS 集群的 Kueue
| EKS HyperPod 任务治理加载项版本 | 作为加载项的一部分安装的 Kueue 版本 |
|---|---|
|
v1.1.3 |
v0.12.0 |
注意
Kueue v.012.0 及更高版本的安装不包含 kueue-rbac-proxy。早期版本的安装可能包含 kueue-rbac-proxy。例如,如果您使用的是 Kueue v0.8.1,则您可能已安装 kueue-rbac-proxy v0.18.1。
HyperPod 任务治理利用 Kueue 执行 Kubernetes 原生作业排队、调度和配额管理,并且随 HyperPod 任务治理 EKS 加载项一同安装。安装后,HyperPod 会创建和修改 SageMaker AI 管理的 Kubernetes 资源,例如 KueueManagerConfig、ClusterQueues、LocalQueues、WorkloadPriorityClasses、ResourceFlavors 和 ValidatingAdmissionPolicies。虽然 Kubernetes 管理员可以灵活地修改这些资源的状态,但对 SageMaker AI 管理的资源所做的所有更改都可能被该服务更新和覆盖。
以下信息概述了 HyperPod 任务治理加载项用来设置 Kueue 的配置设置。
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
有关每个配置条目的更多信息,请参阅 Kueue 文档中的配置
HyperPod 任务治理先决条件
-
确保已在集群管理员的 IAM 用户中为 HyperPod 集群管理员设置最低权限策略。这包括运行 SageMaker HyperPod 核心 API、管理 AWS 账户中的 SageMaker HyperPod 集群以及执行管理由 Amazon EKS 编排的 SageMaker HyperPod 集群中的任务所需的权限。
-
您需要拥有 Kubernetes 版本 1.30 或更高版本。有关说明,请参阅将现有集群更新到新的 Kubernetes 版本。
-
如果您已在集群中安装 Kueue,请先卸载 Kueue,然后再安装 EKS 加载项。
-
在安装 HyperPod 任务治理加载项之前,EKS 集群中必须已存在 HyperPod 节点。
HyperPod 任务治理设置
下文提供了有关如何设置 HyperPod 任务治理的信息。
如果安装成功完成,您可以在 HyperPod SageMaker AI 控制台中查看策略选项卡。您也可以使用以下示例 describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance