翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
プロキシマルポリシー最適化 (PPO)
プロキシマルポリシー最適化 (PPO) は、複数の機械学習モデルを組み合わせて言語モデルのトレーニングと改善を行う高度な手法です。PPO プロセスには、次の 5 つの主要なコンポーネントが含まれます。
-
アクタートレーニングモデル (またはポリシーモデル) は、各トレーニングエポック中に継続的に更新される、教師ありのファインチューニングモデルです。これらの更新は、各ステップでモデルを変更できる量を制限するクリップサロゲート目標を使用して慎重に制御され、ポリシーの更新を以前のバージョンに「近接」して維持することでトレーニングの安定性を確保します。
-
アクター生成モデルはプロンプトへのレスポンスを生成し、システム内の他のモデルによって評価されます。このモデルの重みは、各エポックの最初にアクタートレーニングモデルと同期されます。
-
報酬モデルには固定 (凍結) の重みがあり、アクター生成モデルによって作成された出力にスコアを割り当て、応答品質に関するフィードバックを提供します。
-
Critic Model にはトレーニング可能な重みがあり、アクター生成モデルの出力を評価し、アクターがシーケンス内の残りのトークンを生成するために受け取る可能性のある合計報酬を推定します。
-
アンカーモデルは、固定教師ありファインチューニングモデルで、アクタートレーニングモデルと元のベースモデル間の Kullback-Leibler (KL) の相違を計算するのに役立ちます。このコンポーネントは、アクタートレーニングモデルがベースモデルの動作から大幅に逸脱しすぎて、不安定またはパフォーマンスの問題を引き起こすのを防ぎます。
これらのコンポーネントを組み合わせることで、安定したトレーニングダイナミクスを維持しながら、定義された報酬基準に基づいて言語モデルの出力を最適化できる高度な強化学習システムが作成されます。
Amazon Nova モデルのカスタマイズで PPO を使用する詳細な手順については、Amazon Nova ユーザーガイドのプロキシマルポリシー最適化 (PPO) セクションを参照してください。