翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
直接設定の最適化 (DPO)
直接設定の最適化 (DPO)
DPO は、固定ラベルではなく人間の好みに基づいてモデルを微調整する高度な手法です。特定のプロンプトに対して人間がどのレスポンスが適しているかを示すペアの例を使用します。このモデルは、これらの設定に沿った出力を生成し、応答品質の向上、有害な出力の削減、人間の値との整合性の向上に役立ちます。DPO は、初期 SFT 後のモデル動作の改良に特に役立ちます。
Amazon Nova モデルのカスタマイズで DPO を使用する詳細な手順については、Amazon Nova ユーザーガイドの Direct Preference Optimization (DPO) セクションを参照してください。