태스크 거버넌스 설정
이 섹션에는 Amazon SageMaker HyperPod 태스크 거버넌스 EKS 추가 기능을 설정하는 방법에 대한 정보가 포함되어 있습니다. 여기에는 작업 우선순위 지정, 팀의 컴퓨팅 할당, 유휴 컴퓨팅 공유 방법, 팀을 위한 작업 선점 등을 설정할 수 있는 권한 부여가 포함됩니다.
설정에 문제가 있는 경우 문제 해결에서 알려진 문제 해결 솔루션을 참조하세요.
Kueue 설정
HyperPod 태스크 거버넌스 EKS 추가 기능은 HyperPod EKS 클러스터에 Kueue
| EKS HyperPod 태스크 거버넌스 추가 기능 버전 | 추가 기능의 일부로 설치된 Kueue 버전 |
|---|---|
|
v1.1.3 |
v0.12.0 |
참고
Kueue v.012.0 이상에는 설치의 일부로 kueue-rbac-proxy가 포함되지 않습니다. 이전 버전에는 kueue-rbac-proxy가 설치되어 있을 수 있습니다. 예를 들어 Kueue v0.8.1을 사용하는 경우 kueue-rbac-proxy v0.18.1이 있을 수 있습니다.
HyperPod 태스크 거버넌스는 Kubernetes 네이티브 작업 대기열, 예약 및 할당량 관리를 위해 Kueue를 활용하며 HyperPod 태스크 거버넌스 EKS 추가 기능과 함께 설치됩니다. 설치되어 있을 경우 HyperPod는 KueueManagerConfig, ClusterQueues, LocalQueues, WorkloadPriorityClasses, ResourceFlavors, ValidatingAdmissionPolicies 등의 SageMaker AI 관리형 Kubernetes 리소스를 생성하고 수정합니다. Kubernetes 관리자는 이러한 리소스의 상태를 유연하게 수정할 수 있지만 서비스에서 SageMaker AI 관리형 리소스에 대한 변경 사항을 업데이트하고 덮어쓸 수 있습니다.
다음 정보는 Kueue를 설정하기 위해 HyperPod 태스크 거버넌스 추가 기능에서 사용하는 구성 설정을 간략하게 설명합니다.
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
각 구성 항목에 대한 자세한 내용은 Kueue 설명서의 Configuration
HyperPod 태스크 거버넌스 사전 조건
-
클러스터 관리자의 IAM 사용자에서 HyperPod 클러스터 관리자에 대한 최소 권한 정책이 있는지 확인합니다. 여기에는 SageMaker HyperPod 코어 API를 실행하고 AWS 계정 내에서 SageMaker HyperPod 클러스터를 관리하고 Amazon EKS에서 오케스트레이션한 SageMaker HyperPod 클러스터 관리에서 작업을 수행할 수 있는 권한이 포함됩니다.
-
Kubernetes 버전이 1.30 이상이어야 합니다. 지침은 기존 클러스터를 새 Kubernetes 버전으로 업데이트를 참조하세요.
-
클러스터에 이미 Kueue가 설치되어 있는 경우 EKS 추가 기능을 설치하기 전에 Kueue를 제거하세요.
-
HyperPod 태스크 거버넌스 추가 기능을 설치하기 전에 EKS 클러스터에 HyperPod 노드가 이미 있어야 합니다.
HyperPod 태스크 거버넌스 설정
다음은 HyperPod 태스크 거버넌스를 설정하는 방법에 대한 정보를 제공합니다.
설치에 성공하면 HyperPod SageMaker AI 콘솔에서 정책 탭을 볼 수 있습니다. 다음 예시 describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance