HyperPod repositori resep HyperPod repositori adaptor resep

GitHub repositori

Untuk memulai pekerjaan pelatihan, Anda menggunakan file dari dua GitHub repositori yang berbeda:

Repositori ini berisi komponen penting untuk memulai, mengelola, dan menyesuaikan proses pelatihan Large Language Model (LLM). Anda menggunakan skrip dari repositori untuk mengatur dan menjalankan pekerjaan pelatihan untuk Anda. LLMs

HyperPod repositori resep

Gunakan repositori SageMaker HyperPod resep untuk mendapatkan resep.

main.py: File ini berfungsi sebagai titik masuk utama untuk memulai proses pengiriman pekerjaan pelatihan ke cluster atau pekerjaan pelatihan. SageMaker
launcher_scripts: Direktori ini berisi kumpulan skrip yang umum digunakan yang dirancang untuk memfasilitasi proses pelatihan untuk berbagai Model Bahasa Besar (LLMs).
recipes_collection: Folder ini menampung kompilasi resep LLM yang telah ditentukan sebelumnya yang disediakan oleh pengembang. Pengguna dapat memanfaatkan resep ini bersama dengan data khusus mereka untuk melatih model LLM yang disesuaikan dengan kebutuhan spesifik mereka.

Anda menggunakan SageMaker HyperPod resep untuk meluncurkan pelatihan atau pekerjaan fine-tuning. Terlepas dari cluster yang Anda gunakan, proses pengiriman pekerjaan adalah sama. Misalnya, Anda dapat menggunakan skrip yang sama untuk mengirimkan pekerjaan ke klaster Slurm atau Kubernetes. Peluncur mengirimkan pekerjaan pelatihan berdasarkan tiga file konfigurasi:

Konfigurasi Umum (config.yaml): Termasuk pengaturan umum seperti parameter default atau variabel lingkungan yang digunakan dalam pekerjaan pelatihan.
Konfigurasi Cluster (cluster): Untuk pekerjaan pelatihan menggunakan cluster saja. Jika Anda mengirimkan tugas pelatihan ke klaster Kubernetes, Anda mungkin perlu menentukan informasi seperti volume, label, atau kebijakan restart. Untuk cluster Slurm, Anda mungkin perlu menentukan nama pekerjaan Slurm. Semua parameter terkait dengan cluster tertentu yang Anda gunakan.
Resep (resep): Resep berisi pengaturan untuk pekerjaan pelatihan Anda, seperti jenis model, derajat sharding, atau jalur dataset. Misalnya, Anda dapat menentukan Llama sebagai model pelatihan Anda dan melatihnya menggunakan teknik paralelisme model atau data seperti Fully Sharded Distributed Parallel (FSDP) di delapan mesin. Anda juga dapat menentukan frekuensi atau jalur pos pemeriksaan yang berbeda untuk pekerjaan pelatihan Anda.

Setelah Anda menentukan resep, Anda menjalankan skrip peluncur untuk menentukan pekerjaan end-to-end pelatihan pada cluster berdasarkan konfigurasi melalui main.py titik masuk. Untuk setiap resep yang Anda gunakan, ada skrip shell yang menyertainya yang terletak di folder launch_scripts. Contoh-contoh ini memandu Anda melalui pengiriman dan memulai pekerjaan pelatihan. Gambar berikut menggambarkan bagaimana peluncur SageMaker HyperPod resep mengirimkan pekerjaan pelatihan ke cluster berdasarkan sebelumnya. Saat ini, peluncur SageMaker HyperPod resep dibangun di atas Nvidia NeMo Framework Launcher. Untuk informasi selengkapnya, lihat Panduan NeMo Peluncur.

Diagram yang menggambarkan alur kerja peluncur HyperPod resep. Di sebelah kiri, di dalam kotak putus-putus, ada tiga ikon file berlabel “Resep”, “config.yaml”, dan “slurm.yaml atau k8s.yaml atau sm_job.yaml (Konfigurasi cluster)”. Panah menunjuk dari kotak ini ke kotak tengah berlabel "Peluncur HyperPod resep”. Dari kotak tengah ini, panah lain menunjuk ke kanan ke “Training Job”, dengan "main.py" tertulis di atas panah.

HyperPod repositori adaptor resep

Adaptor SageMaker HyperPod pelatihan adalah kerangka pelatihan. Anda dapat menggunakannya untuk mengelola seluruh siklus hidup pekerjaan pelatihan Anda. Gunakan adaptor untuk mendistribusikan pra-pelatihan atau fine-tuning model Anda di beberapa mesin. Adaptor menggunakan teknik paralelisme yang berbeda untuk mendistribusikan pelatihan. Ini juga menangani implementasi dan manajemen penyimpanan pos pemeriksaan. Untuk detail selengkapnya, lihat Pengaturan lanjutan.

Gunakan repositori adaptor SageMaker HyperPod resep untuk menggunakan adaptor resep.

src: Direktori ini berisi implementasi pelatihan Model Bahasa Skala Besar (LLM), yang mencakup berbagai fitur seperti paralelisme model, pelatihan presisi campuran, dan manajemen pos pemeriksaan.
examples: Folder ini menyediakan kumpulan contoh yang menunjukkan cara membuat titik masuk untuk melatih model LLM, berfungsi sebagai panduan praktis bagi pengguna.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Konfigurasi default

Konfigurasi umum