Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menyiapkan fungsi hadiah untuk model Amazon Nova
Fungsi penghargaan mengevaluasi kualitas respons dan memberikan sinyal umpan balik untuk pelatihan model. Anda dapat mengatur fungsi reward menggunakan fungsi Lambda kustom atau model foundation yang dihosting Amazon Bedrock sebagai juri. Template terpandu tersedia untuk menyederhanakan pembuatan fungsi hadiah untuk tugas-tugas umum seperti mengikuti instruksi dan validasi format. Pilih pendekatan yang sesuai dengan persyaratan tugas Anda.
Pembelajaran Penguatan melalui Hadiah yang Dapat Diverifikasi (RLVR)
RLVR mengoptimalkan model untuk tugas objektif seperti pembuatan kode atau penalaran matematika menggunakan grader atau templat berbasis aturan yang dapat diverifikasi. ready-to-use
Anda memiliki dua opsi untuk RLVR (Kode Kustom):
Konsol Amazon Bedrock menyediakan contoh template untuk fungsi Lambda grader:
-
Penalaran matematis dengan verifikasi kebenaran dasar
-
Format validasi dan pemeriksaan kendala
-
Template Lambda grader generik dengan kode boilerplate
Ikuti petunjuk dalam templat yang disediakan di halaman pekerjaan Buat RFT di konsol Amazon Bedrock
Buat fungsi hadiah khusus menggunakan Lambda ARN Anda sendiri untuk logika kompleks, perhitungan eksternal, multi-langkah APIs, atau menggabungkan beberapa kriteria evaluasi.
catatan
Jika Anda membawa fungsi Lambda Anda sendiri, ingatlah hal berikut:
-
Tingkatkan batas waktu Lambda dari default 3 detik menjadi maksimum 15 menit untuk evaluasi kompleks.
-
Peran eksekusi Lambda memerlukan izin untuk memanggil model seperti yang dijelaskan dalam. Akses dan keamanan untuk model Amazon Nova
Pembelajaran Penguatan melalui Umpan Balik AI (RLAIF)
RLAIF mengoptimalkan model untuk tugas subjektif seperti mengikuti instruksi atau interaksi chatbot menggunakan juri berbasis AI dengan templat. ready-to-use
Untuk RLAIF (Model sebagai Hakim):
-
Pilih Model dasar yang dihosting Amazon Bedrock sebagai Hakim
-
Konfigurasikan instruksi untuk evaluasi
-
Tentukan kriteria evaluasi dan pedoman penilaian
Templat LLM-as-Judge prompt yang tersedia di konsol Amazon Bedrock:
-
Instruksi berikut (Pelatihan model hakim)
-
Ringkasan (Dialog multi-putaran)
-
Evaluasi penalaran (CoT untuk domain khusus)
-
Kesetiaan RAG (Tanya Jawab berdasarkan konteks)
catatan
Opsi Model sebagai Hakim konsol secara otomatis mengubah konfigurasi Anda menjadi fungsi Lambda selama pelatihan.
Detail implementasi fungsi Lambda
Saat menerapkan fungsi hadiah Lambda khusus, fungsi Anda harus menerima dan mengembalikan data dalam format berikut.
Pedoman desain
Tanggapan peringkat — Berikan jawaban terbaik dengan skor yang jelas lebih tinggi
Gunakan pemeriksaan yang konsisten — Evaluasi penyelesaian tugas, kepatuhan format, keamanan, dan panjang yang wajar
Pertahankan penskalaan yang stabil - Jaga skor tetap normal dan tidak dapat dieksploitasi