翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
タスクガバナンスの設定
このセクションでは、Amazon SageMaker HyperPod タスクガバナンス EKS アドオンの設定方法について説明します。これには、タスクの優先順位付け、チームへのコンピューティング割り当て、アイドル状態のコンピューティングの共有方法、チームへのタスクのプリエンプションを設定するためのアクセスの付与も含まれます。
設定で問題が発生した場合は、「トラブルシューティング」で既知の解決策を参照してください。
キューの設定
HyperPod タスクガバナンス EKS アドオンは、HyperPod EKS クラスターに Kueue
| EKS HyperPod タスクガバナンスのアドオンバージョン | アドオンの一部としてインストールされる Kueue のバージョン |
|---|---|
|
v1.1.3 |
v0.12.0 |
注記
Kueue v.012.0 以降には、インストールの一部として kueue-rbac-proxy は含まれません。以前のバージョンでは、kueue-rbac-proxy がインストールされている場合があります。例えば、Kueue v0.8.1 を使用している場合、kueue-rbac-proxy v0.18.1 を使用できます。
HyperPod タスクガバナンスは、Kubernetes ネイティブのジョブキューイング、スケジューリング、クォータ管理に Kueue を活用しており、HyperPod タスクガバナンス EKS アドオンとともにインストールされます。インストールすると、HyperPod は KueueManagerConfig、ClusterQueues、LocalQueues、WorkloadPriorityClasses、ResourceFlavors、ValidatingAdmissionPolicies などの SageMaker AI マネージド Kubernetes リソースを作成して変更します。Kubernetes 管理者はこれらのリソースの状態を柔軟に変更できますが、SageMaker AI マネージドリソースに加えられた変更は、サービスによって更新されたり上書きされたりする可能性があります。
HyperPod タスクガバナンスアドオンが Kueue を設定するために使用する設定の概要は、以下のとおりです。
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
各設定エントリの詳細については、Kueue ドキュメントの「設定
HyperPod タスクガバナンスの前提条件
-
クラスター管理者の IAM ユーザーに、HyperPod クラスター管理者向けの最小権限ポリシーが設定されていることを確認します。これには、SageMaker HyperPod コア APIs の実行、 内の SageMaker HyperPod クラスターの管理AWS アカウント、 でのタスクの実行のためのアクセス許可が含まれますAmazon EKS によってオーケストレーションされた SageMaker HyperPod クラスターを管理する。
-
Kubernetes バージョン 1.30 以降が必要です。手順については、「既存のクラスターを新しい Kubernetes バージョンに更新する」を参照してください。
-
クラスターに既に Kueue がインストールされている場合は、EKS アドオンをインストールする前に Kueue をアンインストールします。
-
HyperPod タスクガバナンスアドオンをインストールする前に、HyperPod ノードが EKS クラスターに既に配置されている必要があります。
HyperPod タスクガバナンスの設定
次に、HyperPod タスクガバナンスの設定方法について説明します。
インストールが正常に完了すると、HyperPod SageMaker AI コンソールで [ポリシー] タブを表示できます。次の describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance