Penyediaan berkelanjutan untuk operasi klaster yang disempurnakan di Amazon EKS - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penyediaan berkelanjutan untuk operasi klaster yang disempurnakan di Amazon EKS

SageMaker HyperPod Cluster Amazon yang dibuat dengan orkestrasi Amazon EKS sekarang mendukung penyediaan berkelanjutan, kemampuan baru yang memungkinkan fleksibilitas dan efisiensi yang lebih besar dalam menjalankan beban kerja skala besar. AI/ML Penyediaan berkelanjutan memungkinkan Anda memulai pelatihan dengan cepat, menskalakan dengan mulus, melakukan pemeliharaan tanpa mengganggu operasi, dan memiliki visibilitas terperinci ke dalam operasi klaster.

catatan

Penyediaan berkelanjutan tersedia untuk HyperPod cluster yang dibuat dengan orkestrasi EKS. Cluster yang dibuat dengan orkestrasi Slurm menggunakan model penskalaan yang berbeda.

Cara kerjanya

Penyediaan berkelanjutan beroperasi melalui arsitektur berbasis peristiwa yang mengelola setiap instance secara independen. Saat membuat HyperPod cluster, Anda menentukan jumlah instance yang diinginkan untuk setiap grup instans. Sistem penyediaan berkelanjutan:

  • Menerima permintaan: Merekam jumlah instans target untuk setiap grup instans

  • Memulai penyediaan: Mulai meluncurkan instance untuk memenuhi jumlah target

    Melacak kemajuan: Memantau setiap upaya peluncuran instance dan mencatat statusnya

  • Menangani kegagalan: Secara otomatis mencoba ulang peluncuran yang gagal

Penyediaan berkelanjutan dinonaktifkan secara default. Untuk menggunakan fitur ini, atur --node-provisioning-mode keContinuous.

Dengan penyediaan berkelanjutan diaktifkan, Anda dapat memulai beberapa operasi penskalaan secara bersamaan tanpa menunggu operasi sebelumnya selesai. Ini memungkinkan Anda menskalakan grup instans yang berbeda dalam kluster yang sama secara bersamaan dan mengirimkan beberapa permintaan penskalaan ke grup instans yang sama.

Penyediaan berkelanjutan juga memberi Anda akses ke DescribeClusterEventdan ListClusterEventuntuk pemantauan acara terperinci dan visibilitas operasional.

Pengukuran penggunaan

HyperPod cluster dengan penyediaan berkelanjutan menggunakan pengukuran tingkat instans untuk memberikan penagihan akurat yang mencerminkan penggunaan sumber daya aktual. Pendekatan pengukuran ini berbeda dari penagihan tingkat cluster tradisional dengan melacak setiap instance secara independen.

Penagihan tingkat instans

Dengan penyediaan berkelanjutan, penagihan dimulai dan berhenti di tingkat instans individu daripada menunggu perubahan status tingkat cluster. Hal ini memberikan manfaat berikut:

  • Akurasi penagihan yang tepat: Penagihan dimulai saat eksekusi skrip siklus hidup dimulai. Jika skrip siklus hidup gagal, ketentuan instance akan dicoba ulang dan Anda akan dikenakan biaya selama durasi runtime skrip siklus hidup.

  • Pengukuran independen: Siklus hidup penagihan setiap instans dikelola secara terpisah, mencegah kesalahan penagihan berjenjang

  • Pembaruan penagihan waktu nyata: Penagihan dimulai saat instance mulai mengeksekusi skrip siklus hidupnya dan berhenti saat instance memasuki status penghentian

Siklus hidup penagihan

Setiap instance di HyperPod klaster Anda mengikuti siklus hidup penagihan ini:

  • Penagihan dimulai: Ketika instance berhasil diluncurkan dan mulai mengeksekusi skrip konfigurasi siklus hidupnya

  • Penagihan berlanjut: Sepanjang masa operasional instans

  • Penagihan berhenti: Saat instance memasuki status penghentian, terlepas dari alasan penghentian

catatan

Penagihan tidak dimulai untuk instance yang gagal diluncurkan. Jika peluncuran instans gagal karena kapasitas yang tidak mencukupi atau masalah lain, Anda tidak dikenakan biaya untuk upaya yang gagal tersebut. Penagihan dihitung pada tingkat instans dan biaya digabungkan serta dilaporkan di Amazon Resource Name (ARN) klaster Anda.

Buat klaster dengan penyediaan berkelanjutan diaktifkan

catatan

Anda harus memiliki kluster Amazon EKS yang sudah ada yang dikonfigurasi dengan jaringan VPC dan bagan Helm yang diperlukan diinstal. Selain itu, siapkan skrip konfigurasi siklus hidup dan unggah ke bucket Amazon S3 yang dapat diakses oleh peran eksekusi Anda.

AWS CLI Operasi berikut membuat HyperPod cluster dengan satu grup instance dan penyediaan berkelanjutan diaktifkan.

aws sagemaker-dev create-cluster \ --cluster-name $HP_CLUSTER_NAME \ --orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \ --vpc-config '{ "SecurityGroupIds": ["'$SECURITY_GROUP'"], "Subnets": ["'$SUBNET'"] }' \ --instance-groups '{ "InstanceGroupName": "ig-1", "InstanceType": "ml.c5.2xlarge", "InstanceCount": 2, "LifeCycleConfig": { "SourceS3Uri": "s3://'$BUCKET_NAME'", "OnCreate": "on_create_noop.sh" }, "ExecutionRole": "'$EXECUTION_ROLE'", "ThreadsPerCore": 1, "TrainingPlanArn": "" }' \ --node-provisioning-mode Continuous // Expected Output: { "ClusterArn": "arn:aws:sagemaker:us-west-2:<account-id>:cluster/<cluster-id>" }

Setelah Anda membuat cluster Anda, Anda dapat menggunakan ListClusterNodesatau DescribeClusterNodeuntuk mengetahui informasi lebih lanjut tentang node di cluster.

Memanggil operasi ini akan mengembalikan ClusterInstanceStatusDetailsobjek dengan salah satu nilai berikut:

  • Running: Node sehat dan terdaftar dengan orkestrator cluster (EKS).

  • Kegagalan: Penyediaan node gagal tetapi sistem akan secara otomatis mencoba lagi penyediaan dengan instance baru. EC2

  • Tertunda: Node sedang disediakan atau di-boot ulang.

  • ShuttingDown: Penghentian node sedang berlangsung. Node akan bertransisi ke status Kegagalan jika penghentian mengalami masalah, atau akan berhasil dihapus dari cluster.

  • SystemUpdating: Node sedang menjalani penambalan AMI, baik dipicu secara manual atau sebagai bagian dari menambal cronjobs.

  • DeepHealthCheckInProgress: Pemeriksaan kesehatan mendalam (DHCs) sedang dilakukan. Ini bisa memakan waktu antara beberapa menit hingga beberapa jam tergantung pada sifat tes. Node yang buruk diganti dan node yang sehat beralih ke Running.

  • NotFound: Digunakan BatchAddClusterNodessebagai tanggapan untuk menunjukkan node telah dihapus selama pemutaran ulang idempoten.