Pengaturan tata kelola tugas - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pengaturan tata kelola tugas

Bagian ini mencakup informasi tentang cara mengatur add-on EKS tata kelola SageMaker HyperPod tugas Amazon. Ini termasuk pemberian izin yang memungkinkan Anda mengatur prioritas tugas, menghitung alokasi untuk tim, cara komputasi idle dibagikan, dan preemption tugas untuk tim.

Jika Anda mengalami masalah saat menyiapkan, silakan lihat Pemecahan Masalah untuk solusi pemecahan masalah yang diketahui.

Pengaturan Kueue

HyperPod tata kelola tugas EKS add-on menginstal Kueue untuk kluster EKS Anda. HyperPod Kueue adalah sistem kubernetes-native yang mengelola kuota dan bagaimana pekerjaan mengkonsumsinya.

Versi pengaya tata kelola HyperPod tugas EKS Versi Kueue yang diinstal sebagai bagian dari add-on Versi kube-rbac-proxy yang diinstal sebagai bagian dari add-on

v1.0.0

v0.8.1

v0.18.1

HyperPod Task governance memanfaatkan Kueue untuk antrian pekerjaan asli Kubernetes, penjadwalan, dan manajemen kuota, dan diinstal dengan add-on EKS tata kelola tugas. HyperPod Saat diinstal, HyperPod membuat dan memodifikasi sumber daya Kubernetes yang SageMaker dikelola AI sepertiKueueManagerConfig,,,,ClusterQueues, LocalQueues dan. WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies Meskipun administrator Kubernetes memiliki fleksibilitas untuk memodifikasi status sumber daya ini, ada kemungkinan bahwa setiap perubahan yang dibuat pada sumber daya yang SageMaker dikelola AI dapat diperbarui dan ditimpa oleh layanan.

Informasi berikut menguraikan pengaturan konfigurasi yang digunakan oleh add-on tata kelola HyperPod tugas untuk menyiapkan Kueue.

apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8080 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []

Untuk informasi selengkapnya tentang setiap entri konfigurasi, lihat Konfigurasi dalam dokumentasi Kueue.

HyperPod Prasyarat tata kelola tugas

HyperPod pengaturan tata kelola tugas

Berikut ini memberikan informasi tentang cara mengatur tata kelola HyperPod tugas.

Setup using the SageMaker AI console

Berikut ini memberikan informasi tentang cara mengatur tata kelola HyperPod tugas menggunakan SageMaker HyperPod konsol.

Anda sudah memiliki semua izin berikut yang dilampirkan jika Anda telah memberikan izin untuk mengelola Amazon CloudWatch Observability EKS dan melihat dasbor HyperPod cluster melalui konsol SageMaker AI di. HyperPod Penyiapan add-on Amazon CloudWatch Observability EKS Jika Anda belum menyiapkan ini, gunakan kebijakan contoh di bawah ini untuk memberikan izin mengelola add-on tata kelola HyperPod tugas dan melihat dasbor HyperPod cluster melalui konsol AI. SageMaker

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "eks:ListAddons", "eks:CreateAddon", "eks:UpdateAddon", "eks:DescribeAddon", "eks:DescribeAddonVersions", "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:ListClusters", "eks:DescribeCluster", "eks:AccessKubernetesApi" ], "Resource": "*" } ] }

Arahkan ke tab Dasbor di SageMaker HyperPod konsol untuk menginstal Add-on tata kelola SageMaker HyperPod tugas Amazon.

Setup using the Amazon EKS AWS CLI

Gunakan contoh AWS CLI perintah create-addonEKS untuk mengatur tata kelola HyperPod tugas Amazon EKS API dan UI konsol menggunakan: AWS CLI

aws eks create-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance

Anda dapat melihat tab Kebijakan di konsol HyperPod SageMaker AI jika penginstalan berhasil. Anda juga dapat menggunakan contoh AWS CLI perintah describe-addonEKS berikut untuk memeriksa status.

aws eks describe-addon --region region --cluster-name cluster-name --addon-name amazon-sagemaker-hyperpod-taskgovernance