Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pesan rencana pelatihan untuk pekerjaan atau HyperPod cluster pelatihan Anda
Paket SageMaker pelatihan Amazon adalah kemampuan yang memungkinkan Anda memesan dan membantu memaksimalkan penggunaan kapasitas GPU untuk beban kerja pelatihan model AI skala besar. Fitur ini menyediakan akses ke jenis instans yang sangat dicari yang mencakup berbagai opsi komputasi yang dipercepat GPU, termasuk teknologi GPU NVIDIA terbaru dan chip trainium. AWS Dengan rencana SageMaker pelatihan, Anda dapat mengamankan akses yang dapat diprediksi ke sumber daya komputasi dengan permintaan tinggi dan berkinerja tinggi ini dalam jadwal dan anggaran yang Anda tentukan, tanpa perlu mengelola infrastruktur yang mendasarinya. Fleksibilitas ini sangat berharga bagi organisasi yang menghadapi tantangan untuk memperoleh dan menjadwalkan instance komputasi kelebihan langganan ini untuk beban kerja AI yang sangat penting bagi misi mereka.
Apa itu rencana SageMaker pelatihan
SageMaker Rencana pelatihan memungkinkan Anda untuk memesan kapasitas komputasi yang disesuaikan dengan kebutuhan sumber daya target Anda, seperti pekerjaan SageMaker pelatihan atau SageMaker HyperPod cluster. Layanan secara otomatis menangani reservasi, penyediaan sumber daya komputasi yang dipercepat, penyiapan infrastruktur, eksekusi beban kerja, dan pemulihan dari kegagalan infrastruktur.
SageMaker rencana pelatihan terdiri dari satu atau lebih blok Kapasitas Cadangan, masing-masing ditentukan oleh parameter berikut:
-
Jenis contoh tertentu
-
Jumlah contoh
-
Zona Ketersediaan
-
Durasi
-
Waktu mulai dan akhir –
catatan
-
Rencana pelatihan khusus untuk sumber daya target mereka (baik SageMaker Training Job atau SageMaker HyperPod) dan tidak dapat dipertukarkan.
-
Beberapa blok Kapasitas Cadangan dalam satu rencana pelatihan mungkin terputus-putus. Ini berarti mungkin ada celah antara blok Kapasitas Cadangan.
Manfaat rencana SageMaker pelatihan
SageMaker Rencana pelatihan menawarkan manfaat berikut:
-
Akses yang Dapat Diprediksi: Cadangan kapasitas GPU untuk beban kerja pembelajaran mesin Anda dalam kerangka waktu yang ditentukan.
-
Manajemen Biaya: Rencana dan anggaran untuk persyaratan pelatihan skala besar sebelumnya.
-
Manajemen Sumber Daya Otomatis: rencana SageMaker pelatihan menangani penyediaan dan pengelolaan infrastruktur.
-
Fleksibilitas: Buat rencana pelatihan untuk berbagai sumber daya, termasuk pekerjaan SageMaker pelatihan dan SageMaker HyperPod cluster.
-
Toleransi Kesalahan: Manfaatkan pemulihan otomatis dari kegagalan infrastruktur dan migrasi beban kerja di seluruh Availability Zone untuk pekerjaan pelatihan SageMaker AI.
SageMaker rencana pelatihan reservasi terlebih dahulu dan waktu mulai yang fleksibel
SageMaker rencana pelatihan memungkinkan Anda untuk memesan kapasitas komputasi terlebih dahulu, dengan waktu dan durasi mulai yang fleksibel.
-
Pemesanan di muka: Anda dapat memesan rencana pelatihan hingga 8 minggu (56 hari) sebelum tanggal mulai.
-
Waktu tunggu minimum: penawaran rencana SageMaker pelatihan mungkin tersedia untuk dimulai dalam waktu 30 menit setelah reservasi, tergantung ketersediaan.
catatan
Anda dapat mencari dan membeli paket yang akan dapat diakses dalam waktu 30 menit. Untuk memastikan aktivasi tepat waktu, transaksi pembayaran harus berhasil diselesaikan setidaknya 5 menit sebelum waktu mulai yang diinginkan. Misalnya, jika Anda ingin rencana dimulai pada pukul 14:00, Anda dapat melakukan pencarian menit terakhir hingga pukul 13.30 dan menyelesaikan pembelian Anda pada pukul 13:55 untuk menjamin paket siap pada pukul 14:00.
-
Durasi reservasi dan kuantitas instans: rencana SageMaker pelatihan memungkinkan Anda memesan instans dengan opsi durasi dan kuantitas tertentu. Untuk jenis instans yang tersedia dalam opsi tertentu Wilayah AWS, durasi, dan kuantitas, lihatJenis instans yang didukung Wilayah AWS,, dan harga.
-
Waktu akhir: Rencana Pelatihan selalu berakhir pada pukul 11:30 UTC pada hari terakhir reservasi.
-
Penghentian rencana pelatihan: Jika Anda menggunakan pekerjaan pelatihan sebagai sumber daya target dan 30 menit tetap dalam Kapasitas Cadangan, rencana SageMaker pelatihan memulai proses penghentian instans yang sedang berjalan di dalam blok tersebut hingga Kapasitas Cadangan berikutnya menjadi aktif. Anda mempertahankan akses penuh ke rencana pelatihan Anda hingga 30 menit sebelum waktu akhir blok Kapasitas Cadangan terakhir.
Jika sumber daya target Anda adalah SageMaker HyperPod cluster, batas waktu ini adalah satu jam.
SageMaker rencana pelatihan alur kerja pengguna
SageMaker rencana pelatihan bekerja melalui langkah-langkah berikut:
Langkah admin:
-
Cari dan tinjau: Temukan penawaran paket yang tersedia yang sesuai dengan persyaratan komputasi Anda, seperti jenis instans, hitungan, waktu mulai, dan durasi.
-
Buat rencana: Pesan rencana pelatihan yang memenuhi kebutuhan Anda menggunakan ID penawaran paket pilihan Anda.
-
Pembayaran dan penjadwalan: Setelah pembayaran di muka berhasil, status paket menjadi.
Scheduled
Langkah-langkah untuk pengguna rencana/insinyur ML:
-
Alokasi sumber daya: Gunakan paket Anda untuk mengantri pekerjaan pelatihan SageMaker AI atau mengalokasikan ke grup instans SageMaker HyperPod klaster.
-
Aktivasi: Ketika tanggal mulai rencana tiba, itu menjadi
Active
. Berdasarkan kapasitas cadangan yang tersedia, rencana SageMaker pelatihan secara otomatis meluncurkan pekerjaan pelatihan atau grup instans penyediaan.
catatan
Status rencana pelatihan beralih dari Scheduled
Active
kapan periode Kapasitas Cadangan dimulai, dan kemudian kembali ke Scheduled
saat menunggu periode Kapasitas Cadangan berikutnya dimulai.
Diagram berikut memberikan gambaran komprehensif tentang bagaimana rencana SageMaker pelatihan berinteraksi dengan yang berbedatarget resources, menggambarkan siklus hidup rencana dan perannya dalam alokasi sumber daya untuk pekerjaan pelatihan dan cluster. SageMaker SageMaker HyperPod
-
Rencana pelatihan untuk SageMaker Training Job: Diagram pertama menggambarkan end-to-end alur kerja interaksi antara rencana pelatihan dan Training SageMaker Job.
-
Rencana pelatihan untuk SageMaker HyperPod cluster: Diagram kedua menggambarkan end-to-end alur kerja interaksi antara rencana pelatihan dan kelompok instance. SageMaker HyperPod
Jenis instans yang didukung Wilayah AWS,, dan harga
Rencana pelatihan mendukung reservasi untuk jenis instans berkinerja tinggi tertentu berikut, masing-masing tersedia dalam pilihan: Wilayah AWS
-
ml.p4d.24xlarge
-
ml.p5.48xbesar
-
ml.p5e.48xlarge
-
ml.p5en.48xlarge
-
ml.trn1.32xbesar
-
ml.trn2.48xlarge
-
ml.p6-b200.48xlarge
-
ml.c6i-32xlargesc
UltraServers
-
ml.p6e-gb200.36xlarge
-
ml.p6e-gb200.72xbesar
catatan
Ketersediaan jenis instans dapat berubah seiring waktu. Untuk up-to-date informasi terbanyak tentang jenis instans yang tersedia menurut Wilayah, serta harga masing-masing, lihat SageMaker Harga
Ketersediaan di beberapa wilayah memungkinkan untuk memilih lokasi yang paling cocok untuk beban kerja, dengan mempertimbangkan faktor-faktor seperti persyaratan residensi data dan kedekatan dengan layanan lain AWS .
penting
-
Anda dapat menggunakan Blok Kapasitas untuk memesan instans SageMaker dengan durasi reservasi dan opsi kuantitas instans berikut.
-
Durasi reservasi tersedia dalam kenaikan 1 hari dari 1 hingga 182 hari.
-
Opsi kuantitas instans reservasi dari 1, 2, 4, 8, 16, 32, atau 64 instans
-
-
Pastikan bahwa Pekerjaan Pelatihan atau kuota HyperPod layanan memungkinkan jumlah maksimum instans per jenis instans yang melebihi jumlah instans yang ditentukan dalam paket Anda. Untuk melihat kuota saat ini atau meminta kenaikan kuota, lihat. Lihat kuota rencana SageMaker pelatihan menggunakan konsol AWS manajemen
UltraServers di SageMaker AI
UltraServers di SageMaker AI menawarkan serangkaian contoh yang saling berhubungan melalui domain jaringan bandwidth tinggi. Misalnya, P6e- GB2 00 UltraServer menghubungkan hingga 18 p6e-gb200.36xlarge
instance di bawah satu domain NVIDIA. NVLink Dengan 4 NVIDIA Blackwell GPUs per instans, setiap GB2 P6e-00 UltraServer mendukung 72 GPUs, sehingga Anda dapat menjalankan beban kerja AI terbesar dengan kinerja tinggi pada AI. SageMaker
Saat Anda menggunakan UltraServers SageMaker AI, Anda mendapatkan kinerja yang dikombinasikan dengan infrastruktur terkelola SageMaker AI, fitur ketahanan kesalahan bawaan, kemampuan pemantauan terintegrasi, dan integrasi asli dengan SageMaker AI dan AWS layanan lainnya. Integrasi ini memungkinkan Anda untuk fokus pada pengembangan dan penerapan model sementara SageMaker AI menangani peningkatan berat pengelolaan infrastruktur AI yang tidak terdiferensiasi.
catatan
UltraServers hanya tersedia di Zona Lokal Dallas (us-east-1-dfw-2a), yang merupakan perpanjangan dari Wilayah US East (N. Virginia). Untuk informasi selengkapnya, silakan lihat Memulai dengan .
Pertimbangan
Pertimbangkan hal berikut saat menggunakan tag dengan .
-
Anda dapat menggunakan UltraServers keduanya SageMaker HyperPoddan pekerjaan SageMaker pelatihan.
-
Anda hanya dapat membeli UltraServers dalam unit penuh. Untuk informasi selengkapnya tentang informasi instans dan harga, lihat paket pelatihan SageMaker HyperPod fleksibel Amazon di harga Amazon SageMaker AI
. -
Jika Anda menggunakan UltraServers dengan HyperPod, HyperPod secara otomatis menambahkan label topologi ke sumber daya Anda untuk membantu Anda dengan alokasi sumber daya. Untuk informasi selengkapnya, lihat Menggunakan penjadwalan sadar topologi di Amazon. SageMaker HyperPod
-
SageMaker AI dan UltraServers menawarkan berbagai kemampuan yang meningkatkan ketahanan beban kerja Anda, termasuk pemeriksaan preemptive dan deteksi dan mitigasi kesalahan otomatis. Bergantung pada apa masalahnya, SageMaker AI dapat menjalankan tindakan untuk memulihkan beban kerja Anda, seperti memulai ulang instance, mengganti instance yang gagal dengan suku cadang, dan mengganti gagal. UltraServers
-
Untuk ketahanan tambahan, Anda dapat mengonfigurasi instance dalam an UltraServer untuk digunakan sebagai suku cadang. Menyimpan instance cadangan di dalam UltraServer memastikan bahwa SageMaker AI dapat dengan cepat merespons kegagalan instans sambil meminimalkan dampak apa pun pada pekerjaan Anda. Kami menyarankan Anda menyimpan satu instance cadangan per UltraServer. Anda tidak perlu memesan instans cadangan apa pun, tetapi ini mungkin menghambat opsi dukungan dan memperlambat pemulihan kegagalan. Anda membeli UltraServers secara keseluruhan, sehingga jumlah suku cadang yang Anda pesan tidak memengaruhi harga.
-
Untuk melihat status dan instance di dalam UltraServer, gunakan operasi ListTrainingPlansAPI atau AWS konsol untuk melihat rencana pelatihan. Dengan menggunakan alat ini, Anda dapat melihat jumlah total instance yang tersedia, instance yang saat ini digunakan, instance yang tidak sehat, jumlah suku cadang yang dikonfigurasi, dan informasi lainnya. Status kesehatan yang mungkin adalah
ok
,impaired
, daninsufficient-data
.
SageMaker rencana pelatihan perilaku pencarian
Saat mencari penawaran rencana pelatihan, rencana SageMaker pelatihan menggunakan pendekatan berikut untuk memaksimalkan ketersediaan sumber daya dan fleksibilitas bagi pengguna, bahkan ketika permintaan tinggi dan blok Kapasitas Cadangan langka:
-
Pencarian berkelanjutan awal: rencana SageMaker pelatihan pertama-tama mencoba menemukan satu blok berkelanjutan dari Kapasitas Cadangan yang cocok dengan durasi yang ditentukan dalam tanggal mulai dan berakhir, sambil memenuhi semua kriteria tertentu lainnya, termasuk sumber daya target, jenis instans yang diminta, dan jumlah instance.
-
Pencarian dua blok: rencana SageMaker pelatihan tidak mengembalikan hasil “tidak ada kapasitas” jika satu blok Kapasitas Cadangan berkelanjutan yang memenuhi semua kriteria tidak tersedia. Sebagai gantinya, ia secara otomatis mencoba memenuhi permintaan menggunakan dua blok Kapasitas Cadangan terpisah, membagi total durasi di dua segmen waktu.
Pendekatan dua blok ini memberikan lebih banyak fleksibilitas dalam alokasi sumber daya, berpotensi mengamankan instance permintaan tinggi yang seharusnya tidak tersedia.
catatan
SageMaker rencana pelatihan mengembalikan hingga tiga penawaran dari satu atau dua segmen. Misalnya, untuk rencana durasi 48 jam, rencana SageMaker pelatihan mungkin menawarkan rencana dengan dua blok 24 jam, satu blok 48 jam terus menerus, dan dua blok dengan durasi yang tidak merata.
Pertimbangan
penting
-
Rencana pelatihan tidak dapat dimodifikasi setelah dibeli.
-
Rencana pelatihan tidak dapat dibagikan di seluruh AWS akun atau di dalam AWS Organisasi Anda.
-
Saat mencari penawaran rencana pelatihan, rencana SageMaker pelatihan menyesuaikan strategi pencariannya berdasarkan: target resources
Untuk SageMaker HyperPod cluster:
-
Penawaran terbatas pada satu Availability Zone (AZ).
-
Ini memastikan kinerja jaringan yang konsisten dan lokalitas data dalam cluster.
Untuk pekerjaan SageMaker pelatihan:
-
Penawaran dapat mencakup beberapa Availability Zone.
-
Ini sangat relevan ketika penawaran rencana berisi beberapa kapasitas cadangan terputus-putus.
-
Misalnya, rencana mungkin mencakup kapasitas dalam AZ-A untuk satu blok Kapasitas Cadangan dan AZ-B untuk yang lain. SageMaker Rencana pelatihan dapat secara otomatis memindahkan beban kerja di seluruh Availability Zones (AZs) berdasarkan ketersediaan sumber daya.
Pendekatan multi-AZ untuk pekerjaan pelatihan ini memberikan fleksibilitas yang lebih besar dalam alokasi sumber daya, meningkatkan peluang menemukan kapasitas yang sesuai untuk beban kerja Anda. Namun, Anda harus menyadari bahwa pekerjaan Anda mungkin berjalan berbeda AZs selama bagian yang berbeda dari periode reservasi Anda.
-
-
Ketika disajikan dengan penawaran dua blok, pengguna harus mempertimbangkan dengan cermat apakah alokasi split ini memenuhi persyaratan beban kerja mereka. Ini mungkin memerlukan penyesuaian penjadwalan pekerjaan atau distribusi beban kerja untuk mengakomodasi sifat reservasi yang tidak berkelanjutan.