Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Reinforcement Fine-Tuning (RFT) di Amazon SageMaker HyperPod
Reinforcement Fine-Tuning (RFT) adalah teknik pembelajaran mesin yang meningkatkan kinerja model melalui sinyal umpan balik — skor terukur atau penghargaan yang menunjukkan kualitas respons — daripada pengawasan langsung dengan jawaban yang benar dan tepat. Tidak seperti fine-tuning tradisional yang diawasi yang belajar dari pasangan input-output, RFT menggunakan fungsi hadiah untuk mengevaluasi respons model dan secara iteratif mengoptimalkan model untuk memaksimalkan penghargaan ini.
Pendekatan ini sangat efektif untuk tugas-tugas di mana mendefinisikan output yang benar secara tepat menantang, tetapi Anda dapat mengukur kualitas respons dengan andal. RFT memungkinkan model untuk mempelajari perilaku dan preferensi yang kompleks melalui uji coba dan umpan balik, menjadikannya ideal untuk aplikasi yang membutuhkan pengambilan keputusan bernuansa, pemecahan masalah yang kreatif, atau kepatuhan terhadap kriteria kualitas tertentu yang dapat dievaluasi secara terprogram.
Kapan menggunakan RFT
Gunakan RFT ketika Anda dapat menentukan kriteria keberhasilan yang jelas dan terukur tetapi berjuang untuk memberikan output yang tepat untuk pelatihan. Ini ideal untuk tugas-tugas di mana kualitas bersifat subjektif atau multifase—seperti penulisan kreatif, pengoptimalan kode, atau penalaran kompleks—di mana ada beberapa solusi yang valid tetapi beberapa jelas lebih baik daripada yang lain.
RFT bekerja paling baik ketika Anda memiliki yang berikut:
-
Fungsi hadiah yang andal yang dapat mengevaluasi output model secara terprogram
-
Perlu menyelaraskan perilaku model dengan preferensi atau kendala tertentu
-
Situasi di mana fine-tuning tradisional yang diawasi gagal karena mengumpulkan contoh berlabel berkualitas tinggi mahal atau tidak praktis
Pertimbangkan RFT untuk aplikasi yang membutuhkan perbaikan berulang, personalisasi, atau kepatuhan terhadap aturan bisnis kompleks yang dapat dikodekan sebagai sinyal hadiah.
RFT apa yang paling cocok untuk
RFT unggul dalam domain di mana kualitas output dapat diukur secara objektif tetapi respons optimal sulit untuk didefinisikan di muka:
-
Pemecahan masalah matematis: Kebenaran yang dapat diverifikasi dengan beberapa jalur solusi
-
Pembuatan dan pengoptimalan kode: Hasil eksekusi dan metrik kinerja yang dapat diuji
-
Tugas penalaran ilmiah: Konsistensi logis dan akurasi faktual
-
Analisis data terstruktur: Output yang dapat diverifikasi secara terprogram
-
Penalaran multi-langkah: Tugas yang membutuhkan perkembangan logis step-by-step
-
Penggunaan alat dan panggilan API: Keberhasilan dapat diukur dengan hasil eksekusi
-
Alur kerja yang kompleks: Kepatuhan terhadap kendala dan aturan bisnis tertentu
RFT bekerja sangat baik ketika Anda perlu menyeimbangkan beberapa tujuan yang bersaing seperti akurasi, efisiensi, dan gaya.
Kapan menggunakan mode penalaran untuk pelatihan RFT
Amazon Nova 2.0 mendukung mode penalaran selama pelatihan RFT. Mode berikut tersedia:
-
none: Tidak ada alasan (hilangkan bidang reasing_effort)
-
rendah: Overhead penalaran minimal
-
tinggi: Kemampuan penalaran maksimum (default saat reasing_effort ditentukan)
catatan
Tidak ada opsi media untuk RFT. Jika bidang reasing_effort tidak ada dalam konfigurasi Anda, penalaran akan dinonaktifkan.
Gunakan penalaran tinggi untuk hal-hal berikut:
-
Tugas analitis yang kompleks
-
Pemecahan masalah matematika
-
Pengurangan logis multi-langkah
-
Tugas di mana step-by-step berpikir menambah nilai
Gunakan none (hilangkan reasing_effort) atau alasan rendah untuk hal berikut:
-
Pertanyaan faktual sederhana
-
Klasifikasi langsung
-
Optimalisasi kecepatan dan biaya
-
Menjawab pertanyaan langsung
penting
Mode penalaran yang lebih tinggi meningkatkan waktu dan biaya pelatihan, latensi inferensi dan biaya, tetapi juga meningkatkan kemampuan model untuk tugas penalaran yang kompleks.
Model yang didukung
RFT SageMaker HyperPod mendukung Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).
Langkah-langkah utama
Proses RFT melibatkan empat fase utama:
-
Menerapkan evaluator: Buat fungsi hadiah untuk menilai respons model secara terprogram berdasarkan kriteria kualitas Anda.
-
Petunjuk mengunggah: Mempersiapkan dan mengunggah data pelatihan dalam format percakapan yang ditentukan dengan data referensi untuk evaluasi.
-
Memulai pekerjaan: Luncurkan proses fine-tuning penguatan dengan parameter yang Anda konfigurasi.
-
Pemantauan: Lacak kemajuan pelatihan melalui dasbor metrik untuk memastikan model belajar secara efektif.
Setiap langkah dibangun di atas langkah sebelumnya, dengan evaluator berfungsi sebagai fondasi yang memandu seluruh proses pelatihan dengan memberikan sinyal umpan balik yang konsisten.