Optimalisasi Kebijakan Proksimal (PPO) - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Optimalisasi Kebijakan Proksimal (PPO)

Proximal Policy Optimization (PPO) adalah teknik canggih yang menggunakan beberapa model pembelajaran mesin yang bekerja sama untuk melatih dan meningkatkan model bahasa. Proses PPO melibatkan lima komponen utama:

  • Model Kereta Aktor (atau model kebijakan) adalah model fine-tuned yang diawasi yang mengalami pembaruan berkelanjutan selama setiap zaman pelatihan. Pembaruan ini dikontrol dengan hati-hati menggunakan tujuan pengganti yang terpotong yang membatasi seberapa banyak model dapat berubah pada setiap langkah, memastikan stabilitas pelatihan dengan menjaga pembaruan kebijakan “proksimal” ke versi sebelumnya.

  • Model Generasi Aktor menghasilkan respons terhadap petunjuk yang kemudian dievaluasi oleh model lain dalam sistem. Bobot model ini disinkronkan dengan Model Kereta Aktor di awal setiap zaman.

  • Model Hadiah memiliki bobot tetap (beku) dan memberikan skor ke output yang dibuat oleh Model Generasi Aktor, memberikan umpan balik tentang kualitas respons.

  • Model Kritik memiliki bobot yang dapat dilatih dan mengevaluasi output Model Generasi Aktor, memperkirakan total hadiah yang mungkin diterima aktor untuk menghasilkan token yang tersisa secara berurutan.

  • Anchor Model adalah model fine-tuned yang diawasi beku yang membantu menghitung divergensi Kullback-Leibler (KL) antara Model Kereta Aktor dan model dasar asli. Komponen ini mencegah Model Kereta Aktor menyimpang terlalu drastis dari perilaku model dasar, yang dapat menyebabkan ketidakstabilan atau masalah kinerja.

Bersama-sama, komponen-komponen ini menciptakan sistem pembelajaran penguatan canggih yang dapat mengoptimalkan output model bahasa berdasarkan kriteria penghargaan yang ditentukan sambil mempertahankan dinamika pelatihan yang stabil.

Untuk petunjuk mendetail tentang penggunaan PPO dengan kustomisasi model Amazon Nova, lihat bagian Optimasi Kebijakan Proksimal (PPO) dari panduan pengguna Amazon Nova.