Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menyiapkan fungsi hadiah
Fungsi penghargaan mengevaluasi kualitas respons dan memberikan sinyal umpan balik untuk pelatihan model. Pilih pendekatan yang sesuai dengan persyaratan tugas Anda.
Pembelajaran Penguatan melalui Hadiah yang Dapat Diverifikasi (RLVR)
RLVR memungkinkan Anda untuk mengoptimalkan model untuk tugas-tugas objektif seperti pembuatan kode atau penalaran matematika. Anda dapat menentukan fungsi reward menggunakan grader berbasis aturan yang dapat diverifikasi atau menggunakan ready-to-use templat untuk kasus penggunaan umum seperti pemeriksaan format, ringkasan, dan kesamaan teks.
Anda memiliki dua opsi untuk RLVR (Kode Kustom):
-
Gunakan templat yang disediakan konsol - Konsol Amazon Bedrock menyediakan contoh templat untuk fungsi Lambda grader:
-
Penalaran matematis dengan verifikasi kebenaran dasar
-
Format validasi dan pemeriksaan kendala
-
Template Lambda grader generik dengan kode boilerplate untuk fungsi Lambda grader Anda
Sebelum menyiapkan fungsi Lambda Anda, ikuti petunjuk dalam templat yang disediakan di halaman pekerjaan Buat RFT di konsol Amazon
Bedrock. -
-
Bawa fungsi Lambda Anda sendiri — Buat fungsi hadiah khusus yang dijalankan melalui fungsi Lambda menggunakan Lambda ARN Anda sendiri. Anda dapat menggabungkan beberapa grader untuk menghasilkan satu skor.
Pembelajaran Penguatan melalui Umpan Balik AI (RLAIF)
RLAIF memungkinkan pengoptimalan untuk tugas-tugas subjektif seperti mengikuti instruksi atau interaksi chatbot. Anda dapat menggunakan juri berbasis AI dengan ready-to-use templat untuk kasus penggunaan umum guna mengevaluasi kualitas respons berdasarkan kriteria yang Anda tentukan.
Untuk RLAIF (Model sebagai Hakim):
-
Pilih Model dasar yang dihosting Amazon Bedrock sebagai Hakim
-
Konfigurasikan instruksi untuk evaluasi
-
Tentukan kriteria evaluasi dan pedoman penilaian
Anda dapat menggunakan templat LLM-as-Judge prompt yang disediakan di konsol Amazon Bedrock:
-
Instruksi berikut (Pelatihan model hakim)
-
Ringkasan (Dialog multi-putaran)
-
Evaluasi penalaran (CoT untuk domain khusus)
-
Kesetiaan RAG (Tanya Jawab berdasarkan konteks)
catatan
-
Saat Anda menggunakan opsi Model sebagai Hakim konsol, Amazon Bedrock secara otomatis mengubah konfigurasi Anda menjadi fungsi Lambda yang dijalankan selama pelatihan.
-
Jika Anda membawa fungsi Lambda Anda sendiri, peran eksekusi Lambda memerlukan izin yang diperlukan untuk memanggil model dengan ID model atau profil inferensi seperti yang dijelaskan dalam. Izin fungsi Grader Lambda untuk RLAIF