Pembelajaran Penguatan melalui Hadiah yang Dapat Diverifikasi (RLVR)Pembelajaran Penguatan melalui Umpan Balik AI (RLAIF)Detail implementasi fungsi Lambda

Menyiapkan fungsi hadiah untuk model Amazon Nova

Fungsi penghargaan mengevaluasi kualitas respons dan memberikan sinyal umpan balik untuk pelatihan model. Anda dapat mengatur fungsi reward menggunakan fungsi Lambda kustom atau model foundation yang dihosting Amazon Bedrock sebagai juri. Template terpandu tersedia untuk menyederhanakan pembuatan fungsi hadiah untuk tugas-tugas umum seperti mengikuti instruksi dan validasi format. Pilih pendekatan yang sesuai dengan persyaratan tugas Anda.

Pembelajaran Penguatan melalui Hadiah yang Dapat Diverifikasi (RLVR)

RLVR mengoptimalkan model untuk tugas objektif seperti pembuatan kode atau penalaran matematika menggunakan grader atau templat berbasis aturan yang dapat diverifikasi. ready-to-use

Anda memiliki dua opsi untuk RLVR (Kode Kustom):

Konsol Amazon Bedrock menyediakan contoh template untuk fungsi Lambda grader:

Penalaran matematis dengan verifikasi kebenaran dasar
Format validasi dan pemeriksaan kendala
Template Lambda grader generik dengan kode boilerplate

Ikuti petunjuk dalam templat yang disediakan di halaman pekerjaan Buat RFT di konsol Amazon Bedrock.

Buat fungsi hadiah khusus menggunakan Lambda ARN Anda sendiri untuk logika kompleks, perhitungan eksternal, multi-langkah APIs, atau menggabungkan beberapa kriteria evaluasi.

catatan

Jika Anda membawa fungsi Lambda Anda sendiri, ingatlah hal berikut:

Tingkatkan batas waktu Lambda dari default 3 detik menjadi maksimum 15 menit untuk evaluasi kompleks.
Peran eksekusi Lambda memerlukan izin untuk memanggil model seperti yang dijelaskan dalam. Akses dan keamanan untuk model Amazon Nova

Pembelajaran Penguatan melalui Umpan Balik AI (RLAIF)

RLAIF mengoptimalkan model untuk tugas subjektif seperti mengikuti instruksi atau interaksi chatbot menggunakan juri berbasis AI dengan templat. ready-to-use

Untuk RLAIF (Model sebagai Hakim):

Pilih Model dasar yang dihosting Amazon Bedrock sebagai Hakim
Konfigurasikan instruksi untuk evaluasi
Tentukan kriteria evaluasi dan pedoman penilaian

Templat LLM-as-Judge prompt yang tersedia di konsol Amazon Bedrock:

Instruksi berikut (Pelatihan model hakim)
Ringkasan (Dialog multi-putaran)
Evaluasi penalaran (CoT untuk domain khusus)
Kesetiaan RAG (Tanya Jawab berdasarkan konteks)

catatan

Opsi Model sebagai Hakim konsol secara otomatis mengubah konfigurasi Anda menjadi fungsi Lambda selama pelatihan.

Detail implementasi fungsi Lambda

Saat menerapkan fungsi hadiah Lambda khusus, fungsi Anda harus menerima dan mengembalikan data dalam format berikut.

Pedoman desain

Tanggapan peringkat — Berikan jawaban terbaik dengan skor yang jelas lebih tinggi
Gunakan pemeriksaan yang konsisten — Evaluasi penyelesaian tugas, kepatuhan format, keamanan, dan panjang yang wajar
Pertahankan penskalaan yang stabil - Jaga skor tetap normal dan tidak dapat dieksploitasi

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Siapkan data

Buat pekerjaan fine-tuning