Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kustomisasi Amazon Nova pada pekerjaan SageMaker pelatihan
Pekerjaan SageMaker pelatihan Amazon adalah lingkungan yang memungkinkan Anda melatih model pembelajaran mesin dalam skala besar. Ini secara otomatis menyediakan dan menskalakan sumber daya komputasi, memuat data pelatihan dari sumber seperti Amazon S3, mengeksekusi kode pelatihan Anda, dan menyimpan artefak model yang dihasilkan.
Tujuan pelatihan adalah untuk menyesuaikan model Amazon Nova dasar menggunakan data milik Anda. Proses pelatihan biasanya melibatkan langkah-langkah untuk menyiapkan data Anda, memilih resep, memodifikasi parameter konfigurasi dalam file YAMM, dan mengirimkan pekerjaan pelatihan. Proses pelatihan akan menampilkan pos pemeriksaan model terlatih dalam bucket Amazon S3 yang dikelola layanan. Anda dapat menggunakan lokasi pos pemeriksaan ini untuk pekerjaan evaluasi. Kustomisasi Nova pada pekerjaan SageMaker pelatihan menyimpan artefak model dalam ember Amazon S3 yang dikelola layanan. Artefak dalam bucket yang dikelola layanan dienkripsi dengan kunci KMS yang dikelola. SageMaker Bucket Amazon S3 yang dikelola layanan saat ini tidak mendukung enkripsi data menggunakan kunci KMS yang dikelola pelanggan.
Ikhtisar
Bagian ini memberikan ikhtisar teknik penyesuaian dan membantu Anda memilih pendekatan terbaik untuk kebutuhan dan data yang tersedia.
Dua tahap pelatihan LLM
Pelatihan model bahasa besar terdiri dari dua tahap utama: pra-pelatihan dan pasca-pelatihan. Selama pra-pelatihan, model memproses token teks mentah dan mengoptimalkan prediksi token berikutnya. Proses ini menciptakan pelengkap pola yang menyerap sintaks, semantik, fakta, dan pola penalaran dari web dan teks yang dikuratori. Namun, model pra-terlatih tidak memahami instruksi, tujuan pengguna, atau perilaku yang sesuai konteks. Ini melanjutkan teks dalam gaya apa pun yang sesuai dengan distribusi pelatihannya. Model pra-terlatih melengkapi secara otomatis daripada mengikuti petunjuk, menghasilkan pemformatan yang tidak konsisten, dan dapat mencerminkan bias yang tidak diinginkan atau konten yang tidak aman dari data pelatihan. Pra-pelatihan membangun kompetensi umum, bukan kegunaan tugas.
Pasca-pelatihan mengubah pelengkap pola menjadi asisten yang berguna. Anda menjalankan beberapa putaran Supervised Fine-Tuning (SFT) untuk mengajarkan model mengikuti instruksi, mematuhi skema dan kebijakan, memanggil alat, dan menghasilkan output yang andal dengan meniru demonstrasi berkualitas tinggi. Penyelarasan ini mengajarkan model untuk menanggapi permintaan sebagai tugas daripada teks untuk melanjutkan. Anda kemudian menerapkan Reinforcement Fine-Tuning (RFT) untuk mengoptimalkan perilaku menggunakan umpan balik yang terukur (seperti verifier atau an LLM-as-a-judge), menyeimbangkan trade-off seperti akurasi versus singkatnya, keamanan versus cakupan, atau penalaran multi-langkah di bawah kendala. Dalam praktiknya, Anda mengganti SFT dan RFT dalam siklus untuk membentuk model yang telah dilatih sebelumnya menjadi sistem yang andal dan selaras dengan kebijakan yang melakukan tugas-tugas kompleks secara konsisten.
Pilih pendekatan kustomisasi yang tepat
Pada bagian ini kita akan membahas strategi penyesuaian pasca pelatihan: RFT dan SFT.
Penyetelan halus penguatan (RFT)
Penyetelan halus penguatan meningkatkan kinerja model melalui sinyal umpan balik — skor terukur atau penghargaan yang menunjukkan kualitas respons — daripada pengawasan langsung dengan jawaban yang benar dan tepat. Tidak seperti fine-tuning tradisional yang diawasi yang belajar dari pasangan input-output, RFT menggunakan fungsi hadiah untuk mengevaluasi respons model dan secara iteratif mengoptimalkan model untuk memaksimalkan penghargaan ini. Pendekatan ini bekerja dengan baik untuk tugas-tugas di mana mendefinisikan output yang benar secara tepat menantang, tetapi Anda dapat mengukur kualitas respons dengan andal. RFT memungkinkan model untuk mempelajari perilaku dan preferensi yang kompleks melalui uji coba dan umpan balik, menjadikannya ideal untuk aplikasi yang memerlukan pengambilan keputusan bernuansa, pemecahan masalah yang kreatif, atau kepatuhan terhadap kriteria kualitas tertentu yang dapat Anda evaluasi secara terprogram. Misalnya, menjawab pertanyaan hukum yang kompleks adalah kasus penggunaan yang ideal untuk RFT karena Anda ingin mengajarkan model bagaimana bernalar lebih baik untuk menjawab pertanyaan dengan lebih akurat.
Cara kerjanya
Dalam penyempurnaan penguatan, Anda mulai dari garis dasar yang disetel instruksi dan memperlakukan setiap prompt seperti turnamen kecil. Untuk masukan yang diberikan, Anda mengambil sampel beberapa jawaban kandidat dari model, menilai masing-masing dengan fungsi hadiah, lalu memberi peringkat dalam kelompok itu. Langkah pembaruan mendorong model untuk membuat kandidat dengan skor lebih tinggi lebih mungkin di lain waktu dan yang mendapat skor lebih rendah lebih kecil kemungkinannya, sementara stay-close-to-baseline kendala membuat perilaku tidak melayang atau menjadi bertele-tele atau eksploitatif. Anda mengulangi loop ini melalui banyak petunjuk, menyegarkan hard case, mengencangkan verifier atau menilai rubrik saat Anda melihat eksploitasi, dan terus melacak metrik tugas.
Kapan menggunakan RFT
Tugas yang paling diuntungkan dari RFT memiliki beberapa sifat. Mereka memiliki sinyal keberhasilan yang terukur bahkan ketika satu output yang benar sulit ditentukan. Mereka mengakui kredit sebagian atau kualitas bertingkat sehingga Anda dapat memberi peringkat yang lebih baik dibandingkan jawaban yang lebih buruk dalam prompt atau menggunakan fungsi hadiah. Mereka melibatkan beberapa tujuan yang harus seimbang (seperti akurasi dengan singkatnya, kejelasan, keamanan, atau biaya). Mereka membutuhkan kepatuhan terhadap batasan eksplisit yang dapat Anda periksa secara terprogram. Mereka beroperasi dalam pengaturan yang dimediasi alat atau berbasis lingkungan di mana hasil dapat diamati (keberhasilan atau kegagalan, latensi, penggunaan sumber daya). Mereka terjadi dalam rezim label rendah di mana mengumpulkan target emas mahal tetapi umpan balik otomatis atau berbasis rubrik berlimpah. RFT bekerja paling baik ketika Anda dapat mengubah kualitas menjadi skalar atau peringkat yang andal dan ingin model tersebut secara istimewa memperkuat perilaku dengan skor lebih tinggi tanpa memerlukan target berlabel lengkap.
Pertimbangkan metode lain ketika:
-
Anda memiliki pasangan input-output berlabel yang berlimpah dan andal - Gunakan SFT
-
Kesenjangan utama adalah pengetahuan atau jargon — Gunakan retrieval-augmented generation (RAG)
-
Sinyal hadiah Anda berisik atau tidak dapat diandalkan dan Anda tidak dapat memperbaikinya dengan rubrik atau catur yang lebih baik — Stabilkan itu terlebih dahulu sebelum RFT
Kapan tidak menggunakan RFT
Hindari RFT dalam situasi ini:
-
Anda dapat dengan murah menghasilkan pasangan input-output berlabel yang andal (SFT lebih sederhana, lebih murah, dan lebih stabil)
-
Kesenjangan adalah pengetahuan atau jargon daripada perilaku (gunakan RAG)
-
Sinyal hadiah Anda berisik, jarang, mudah dimainkan, atau mahal atau lambat untuk dihitung (perbaiki evaluator terlebih dahulu)
-
Kinerja dasar mendekati nol (bootstrap dengan SFT sebelum mengoptimalkan preferensi)
-
Tugas ini memiliki skema deterministik, pemformatan ketat, atau satu jawaban yang benar (SFT atau validasi berbasis aturan bekerja lebih baik)
-
Latensi ketat atau anggaran biaya tidak dapat menyerap pengambilan sampel tambahan atau eksplorasi yang dibutuhkan RFT
-
Kendala keamanan atau kebijakan tidak ditentukan secara jelas dan dapat ditegakkan dalam hadiah
Jika Anda dapat menunjuk ke “jawaban yang benar,” gunakan SFT. Jika Anda membutuhkan pengetahuan baru, gunakan RAG. Gunakan RFT hanya setelah Anda memiliki baseline yang solid dan fungsi hadiah yang kuat, cepat, hard-to-exploit.
Penyetelan halus yang diawasi (SFT)
Penyetelan halus yang diawasi melatih LLM pada kumpulan data pasangan input-output berlabel manusia untuk tugas Anda. Anda memberikan contoh petunjuk (pertanyaan, instruksi, dan sebagainya) dengan tanggapan yang benar atau diinginkan, dan terus melatih model pada contoh-contoh ini. Model menyesuaikan bobotnya untuk meminimalkan kerugian yang diawasi (biasanya lintas entropi antara prediksi dan token keluaran target). Ini adalah pelatihan yang sama yang digunakan dalam sebagian besar tugas pembelajaran mesin yang diawasi, diterapkan untuk mengkhususkan LLM.
SFT mengubah perilaku, bukan pengetahuan. Itu tidak mengajarkan model fakta atau jargon baru yang tidak dilihatnya dalam pra-pelatihan. Ini mengajarkan model bagaimana menjawab, bukan apa yang harus diketahui. Jika Anda membutuhkan pengetahuan domain baru (seperti terminologi internal), gunakan retrieval-augmented generation (RAG) untuk menyediakan konteks itu pada waktu inferensi. SFT kemudian menambahkan perilaku mengikuti instruksi yang diinginkan di atas.
Cara kerjanya
SFT mengoptimalkan LLM dengan meminimalkan kerugian lintas entropi rata-rata pada token respons, memperlakukan token prompt sebagai konteks dan menutupinya dari kerugian. Model menginternalisasi gaya target, struktur, dan aturan keputusan Anda, belajar untuk menghasilkan penyelesaian yang benar untuk setiap prompt. Misalnya, untuk mengklasifikasikan dokumen ke dalam kategori kustom, Anda menyempurnakan model dengan petunjuk (teks dokumen) dan pelengkapan berlabel (label kategori). Anda melatih pasangan tersebut sampai model mengeluarkan label yang tepat untuk setiap prompt dengan probabilitas tinggi.
Anda dapat melakukan SFT dengan sedikitnya beberapa ratus contoh dan skala hingga beberapa ratus ribu. Sampel SFT harus berkualitas tinggi dan langsung selaras dengan perilaku model yang diinginkan.
Kapan menggunakan SFT
Gunakan SFT ketika Anda memiliki tugas yang terdefinisi dengan baik dengan output yang diinginkan dengan jelas. Jika Anda dapat secara eksplisit menyatakan “Diberikan input X, output yang benar adalah Y” dan mengumpulkan contoh pemetaan tersebut, fine-tuning yang diawasi adalah pilihan yang baik. SFT unggul dalam skenario ini:
-
Tugas klasifikasi terstruktur atau kompleks - Klasifikasi dokumen atau kontrak internal ke dalam banyak kategori khusus. Dengan SFT, model mempelajari kategori spesifik ini lebih baik daripada mendorong saja.
-
Tugas penjawab pertanyaan atau transformasi dengan jawaban yang diketahui - Sempurnakan model untuk menjawab pertanyaan dari basis pengetahuan perusahaan, atau mengonversi data antar format di mana setiap input memiliki respons yang benar.
-
Pemformatan dan konsistensi gaya - Latih model untuk selalu merespons dalam format atau nada tertentu dengan menyempurnakan contoh format atau nada yang benar. Misalnya, pelatihan pada pasangan respons cepat yang menunjukkan suara merek tertentu mengajarkan model untuk menghasilkan output dengan gaya itu. Perilaku mengikuti instruksi sering kali awalnya diajarkan melalui SFT pada contoh perilaku asisten yang baik yang dikuratori.
SFT adalah cara paling langsung untuk mengajarkan LLM keterampilan atau perilaku baru ketika Anda dapat menentukan seperti apa perilaku yang benar. Ini menggunakan pemahaman bahasa model yang ada dan memfokuskannya pada tugas Anda. Gunakan SFT ketika Anda ingin model melakukan hal tertentu dan Anda memiliki atau dapat membuat kumpulan data contoh.
Gunakan SFT saat Anda dapat merakit pasangan prompt dan respons berkualitas tinggi yang mencerminkan perilaku yang Anda inginkan. Ini cocok dengan tugas dengan target yang jelas atau format deterministik seperti skema, fungsi atau panggilan alat, dan jawaban terstruktur di mana imitasi adalah sinyal pelatihan yang sesuai. Tujuannya adalah membentuk perilaku: mengajarkan model untuk memperlakukan petunjuk sebagai tugas, mengikuti instruksi, mengadopsi kebijakan nada dan penolakan, dan menghasilkan pemformatan yang konsisten. Rencanakan setidaknya ratusan demonstrasi, dengan kualitas data, konsistensi, dan deduplikasi lebih penting daripada volume mentah. Untuk pembaruan yang mudah dan hemat biaya, gunakan metode hemat parameter seperti Adaptasi Peringkat Rendah untuk melatih adaptor kecil sambil membiarkan sebagian besar tulang punggung tidak tersentuh.
Kapan tidak menggunakan SFT
Jangan gunakan SFT ketika kesenjangan adalah pengetahuan daripada perilaku. Itu tidak mengajarkan model fakta baru, jargon, atau peristiwa baru-baru ini. Dalam kasus tersebut, gunakan retrieval-augmented generation untuk membawa pengetahuan eksternal pada kesimpulan. Hindari SFT ketika Anda dapat mengukur kualitas tetapi tidak dapat memberi label satu jawaban yang benar. Gunakan penyetelan penguatan dengan imbalan yang dapat diverifikasi atau untuk mengoptimalkan hadiah tersebut LLM-as-a-judge secara langsung. Jika kebutuhan atau konten Anda sering berubah, andalkan pengambilan dan penggunaan alat daripada melatih ulang model.