Model yang didukung untuk fine-tuning penguatan Cara kerja fine-tuning penguatan

Sesuaikan model dengan fine-tuning tulangan di Amazon Bedrock

Reinforcement fine-tuning adalah teknik kustomisasi model di Amazon Bedrock. Ini meningkatkan kinerja model dasar dengan mengajarkan model apa yang merupakan respons “baik” melalui sinyal umpan balik yang disebut penghargaan. Sementara metode fine-tuning tradisional bergantung pada kumpulan data berlabel, fine-tuning penguatan menggunakan pendekatan berbasis umpan balik. Hal ini memungkinkan model untuk meningkatkan secara iteratif berdasarkan sinyal hadiah. Alih-alih belajar dari contoh tetap, ia menggunakan fungsi penghargaan untuk mengevaluasi dan menilai tanggapan mana yang dianggap baik untuk kasus penggunaan bisnis tertentu.

Reinforcement fine-tuning mengajarkan model untuk memahami apa yang membuat respons berkualitas. Anda tidak memerlukan sejumlah besar data pelatihan pra-label. Ini membuat kustomisasi model lanjutan di Amazon Bedrock lebih mudah diakses dan hemat biaya.

Kemampuan ini mendukung dua pendekatan untuk memberikan fleksibilitas untuk mengoptimalkan model:

Reinforcement Learning with Verifiable Rewards (RLVR) - Menggunakan grader berbasis aturan untuk tugas-tugas objektif seperti pembuatan kode atau penalaran matematika
Reinforcement Learning from AI Feedback (RLAIF) - Menggunakan juri berbasis AI untuk tugas subjektif seperti mengikuti instruksi atau moderasi konten

Untuk informasi selengkapnya, lihat Menyiapkan fungsi hadiah.

Penguatan fine-tuning dapat memberikan manfaat sebagai berikut:

Peningkatan kinerja model - Penyetelan halus penguatan meningkatkan akurasi model dibandingkan dengan model dasar. Hal ini memungkinkan optimalisasi harga dan kinerja dengan melatih varian model yang lebih kecil, lebih cepat, dan lebih efisien.
Data pelatihan yang fleksibel - Amazon Bedrock mengotomatiskan banyak kompleksitas. Hal ini membuat fine-tuning penguatan dapat diakses oleh pengembang yang membangun aplikasi AI. Anda dapat dengan mudah melatih model menggunakan log pemanggilan model Amazon Bedrock yang ada sebagai data pelatihan atau mengunggah kumpulan data Anda.
Keamanan dan kepatuhan - Data kepemilikan Anda tidak pernah meninggalkan AWS lingkungan yang aman dan diatur selama proses penyesuaian.

Topik

Model yang didukung untuk fine-tuning penguatan

Tabel berikut menunjukkan model pondasi yang dapat Anda sesuaikan dengan fine-tuning tulangan:

Model yang didukung untuk fine-tuning penguatan
Penyedia	Model	ID Model	Dukungan model wilayah tunggal
Amazon	Nova 2 Lite	amazon.nova-2-lite-v 1:0:256 k	us-east-1

Cara kerja fine-tuning penguatan

Amazon Bedrock sepenuhnya mengotomatiskan alur kerja RFT melalui proses tiga tahap:

Tahap 1: Pembuatan respons

Model aktor (model yang disesuaikan) menerima petunjuk dari kumpulan data pelatihan Anda dan menghasilkan respons. Secara default, ini menghasilkan 4 tanggapan per prompt. Tahap ini mendukung interaksi putaran tunggal dan multi-putaran, memungkinkan cakupan komprehensif dari berbagai kasus penggunaan.

Tahap 2: Perhitungan hadiah

Pasangan respons cepat yang dihasilkan model aktor dievaluasi oleh model pengoptimalan yang Anda pilih:

RLVR - Jalankan melalui Lambda untuk menghitung skor objektif
RLAIF - Mengevaluasi tanggapan berdasarkan kriteria dan prinsip yang Anda konfigurasikan (konsol mengubahnya menjadi fungsi Lambda secara otomatis)

Tahap 3: Pelatihan model aktor

Amazon Bedrock menggunakan pasangan prompt respons dengan skor untuk melatih model aktor melalui pembelajaran berbasis kebijakan menggunakan Group Relative Policy Optimization (GRPO). Loop pelatihan berlanjut secara iteratif hingga model mencapai metrik kinerja yang diinginkan atau memenuhi kriteria penghentian yang telah ditentukan sebelumnya.

Amazon Bedrock secara otomatis menangani komputasi hadiah paralel, optimasi saluran pelatihan, dan menerapkan perlindungan terhadap tantangan pembelajaran penguatan umum seperti peretasan hadiah dan keruntuhan kebijakan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kirimkan model fine-tuning atau melanjutkan pekerjaan pra-pelatihan

Penguatan akses dan keamanan fine-tuning