Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Sesuaikan model dengan fine-tuning tulangan di Amazon Bedrock
Reinforcement fine-tuning adalah teknik kustomisasi model di Amazon Bedrock. Ini meningkatkan kinerja model dasar dengan mengajarkan model apa yang merupakan respons “baik” melalui sinyal umpan balik yang disebut penghargaan. Sementara metode fine-tuning tradisional bergantung pada kumpulan data berlabel, fine-tuning penguatan menggunakan pendekatan berbasis umpan balik. Hal ini memungkinkan model untuk meningkatkan secara iteratif berdasarkan sinyal hadiah. Alih-alih belajar dari contoh tetap, ia menggunakan fungsi penghargaan untuk mengevaluasi dan menilai tanggapan mana yang dianggap baik untuk kasus penggunaan bisnis tertentu.
Reinforcement fine-tuning mengajarkan model untuk memahami apa yang membuat respons berkualitas. Anda tidak memerlukan sejumlah besar data pelatihan pra-label. Ini membuat kustomisasi model lanjutan di Amazon Bedrock lebih mudah diakses dan hemat biaya.
Kemampuan ini mendukung dua pendekatan untuk memberikan fleksibilitas untuk mengoptimalkan model:
-
Reinforcement Learning with Verifiable Rewards (RLVR) - Menggunakan grader berbasis aturan untuk tugas-tugas objektif seperti pembuatan kode atau penalaran matematika
-
Reinforcement Learning from AI Feedback (RLAIF) - Menggunakan juri berbasis AI untuk tugas subjektif seperti mengikuti instruksi atau moderasi konten
Untuk informasi selengkapnya, lihat Menyiapkan fungsi hadiah.
Penguatan fine-tuning dapat memberikan manfaat sebagai berikut:
-
Peningkatan kinerja model - Penyetelan halus penguatan meningkatkan akurasi model dibandingkan dengan model dasar. Hal ini memungkinkan optimalisasi harga dan kinerja dengan melatih varian model yang lebih kecil, lebih cepat, dan lebih efisien.
-
Data pelatihan yang fleksibel - Amazon Bedrock mengotomatiskan banyak kompleksitas. Hal ini membuat fine-tuning penguatan dapat diakses oleh pengembang yang membangun aplikasi AI. Anda dapat dengan mudah melatih model menggunakan log pemanggilan model Amazon Bedrock yang ada sebagai data pelatihan atau mengunggah kumpulan data Anda.
-
Keamanan dan kepatuhan - Data kepemilikan Anda tidak pernah meninggalkan AWS lingkungan yang aman dan diatur selama proses penyesuaian.
Topik
Model yang didukung untuk fine-tuning penguatan
Tabel berikut menunjukkan model pondasi yang dapat Anda sesuaikan dengan fine-tuning tulangan:
| Penyedia | Model | ID Model | Dukungan model wilayah tunggal |
|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v 1:0:256 k | us-east-1 |
Cara kerja fine-tuning penguatan
Amazon Bedrock sepenuhnya mengotomatiskan alur kerja RFT melalui proses tiga tahap:
Tahap 1: Pembuatan respons
Model aktor (model yang disesuaikan) menerima petunjuk dari kumpulan data pelatihan Anda dan menghasilkan respons. Secara default, ini menghasilkan 4 tanggapan per prompt. Tahap ini mendukung interaksi putaran tunggal dan multi-putaran, memungkinkan cakupan komprehensif dari berbagai kasus penggunaan.
Tahap 2: Perhitungan hadiah
Pasangan respons cepat yang dihasilkan model aktor dievaluasi oleh model pengoptimalan yang Anda pilih:
-
RLVR - Jalankan melalui Lambda untuk menghitung skor objektif
-
RLAIF - Mengevaluasi tanggapan berdasarkan kriteria dan prinsip yang Anda konfigurasikan (konsol mengubahnya menjadi fungsi Lambda secara otomatis)
Tahap 3: Pelatihan model aktor
Amazon Bedrock menggunakan pasangan prompt respons dengan skor untuk melatih model aktor melalui pembelajaran berbasis kebijakan menggunakan Group Relative Policy Optimization (GRPO). Loop pelatihan berlanjut secara iteratif hingga model mencapai metrik kinerja yang diinginkan atau memenuhi kriteria penghentian yang telah ditentukan sebelumnya.
Amazon Bedrock secara otomatis menangani komputasi hadiah paralel, optimasi saluran pelatihan, dan menerapkan perlindungan terhadap tantangan pembelajaran penguatan umum seperti peretasan hadiah dan keruntuhan kebijakan.