Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Buat dan kelola pekerjaan fine-tuning untuk model Amazon Nova
Anda dapat membuat pekerjaan reinforcement fine-tuning (RFT) menggunakan konsol Amazon Bedrock atau API. Pekerjaan RFT dapat memakan waktu beberapa jam tergantung pada ukuran data pelatihan Anda, jumlah zaman, dan kompleksitas fungsi hadiah Anda.
Prasyarat
-
Buat peran layanan IAM dengan izin yang diperlukan. Untuk informasi keamanan dan izin yang komprehensif termasuk izin khusus RFT, lihat. Akses dan keamanan untuk model Amazon Nova
-
(Opsional) Enkripsi data input dan output, pekerjaan RFT Anda, atau permintaan inferensi yang dibuat untuk model kustom. Untuk informasi selengkapnya, lihat Enkripsi model kustom.
Buat pekerjaan RFT Anda
Pilih tab untuk metode pilihan Anda, lalu ikuti langkah-langkahnya:
Pantau pekerjaan pelatihan RFT Anda
Amazon Bedrock menyediakan pemantauan real-time dengan grafik dan metrik visual selama pelatihan RFT. Metrik ini membantu Anda memahami apakah model menyatu dengan benar dan apakah fungsi hadiah secara efektif memandu proses pembelajaran.
Pelacakan status Job
Anda dapat memantau status pekerjaan RFT Anda melalui fase validasi dan pelatihan di konsol Amazon Bedrock.
Indikator penyelesaian:
-
Status Job berubah menjadi Selesai saat pelatihan berhasil diselesaikan
-
Model khusus ARN menjadi tersedia untuk penerapan
-
Metrik pelatihan mencapai ambang konvergensi
Metrik pelatihan waktu nyata
Amazon Bedrock menyediakan pemantauan waktu nyata selama pelatihan RFT dengan grafik visual yang menampilkan metrik pelatihan dan validasi.
Metrik pelatihan inti
-
Kehilangan pelatihan - Mengukur seberapa baik model belajar dari data pelatihan
-
Statistik hadiah pelatihan - Menampilkan skor hadiah yang ditetapkan oleh fungsi hadiah Anda
-
Margin hadiah - Mengukur perbedaan antara imbalan respons baik dan buruk
-
Akurasi pada set pelatihan dan validasi - Menunjukkan kinerja model pada data pelatihan dan held-out
Kategori metrik terperinci
Metrik hadiah —
critic/rewards/mean,critic/rewards/max,critic/rewards/min(distribusi hadiah), danval-score/rewards/mean@1(hadiah validasi)Perilaku model —
actor/entropy(variasi kebijakan; lebih tinggi sama dengan lebih eksplorasi)Kesehatan pelatihan —
actor/pg_loss(kehilangan gradien kebijakan),actor/pg_clipfrac(frekuensi pembaruan terpotong), danactor/grad_norm(besarnya gradien)Karakteristik respons —
prompt_length/meanprompt_length/max,,prompt_length/min(statistik token masukan)response_length/mean,,response_length/max,response_length/min(statistik token keluaran), danresponse/aborted_ratio(tingkat pembangkitan tidak lengkap; 0 sama dengan semua selesai)Kinerja —
perf/throughput(throughput pelatihan),perf/time_per_step(waktu per langkah pelatihan), dantiming_per_token_ms/*(waktu pemrosesan per token)Penggunaan sumber daya —
perf/max_memory_allocated_gb,perf/max_memory_reserved_gb(memori GPU), danperf/cpu_memory_used_gb(memori CPU)
Visualisasi kemajuan pelatihan
Konsol menampilkan grafik interaktif yang diperbarui secara real-time saat pekerjaan RFT Anda berlangsung. Visualisasi ini dapat membantu Anda:
-
Lacak konvergensi menuju kinerja optimal
-
Identifikasi potensi masalah pelatihan lebih awal
-
Tentukan titik berhenti yang optimal
-
Bandingkan kinerja di berbagai zaman
Mengatur inferensi
Setelah pekerjaan selesai, terapkan model RFT untuk inferensi sesuai permintaan atau gunakan Provisioned Throughput untuk kinerja yang konsisten. Untuk menyiapkan inferensi, lihatSiapkan inferensi untuk model khusus.
Gunakan Test in Playground untuk mengevaluasi dan membandingkan respons dengan model dasar. Untuk mengevaluasi model RFT Anda yang telah selesai, lihat. Evaluasi model RFT Anda