翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Nova モデルのファインチューニングジョブの作成と管理
Amazon Bedrock コンソールまたは API を使用して、強化ファインチューニング (RFT) ジョブを作成できます。RFT ジョブは、トレーニングデータのサイズ、エポック数、報酬関数の複雑さに応じて、数時間かかる場合があります。
前提条件
-
必要なアクセス許可を持つ IAM サービスロールを作成します。RFT 固有のアクセス許可を含む包括的なセキュリティとアクセス許可の情報については、「」を参照してくださいAmazon Nova モデルのアクセスとセキュリティ。
-
(オプション) カスタムモデルに対して行われた入出力データ、RFT ジョブ、または推論リクエストを暗号化します。詳細については、「カスタムモデルの暗号化」を参照してください。
RFT ジョブを作成する
任意の方法のタブを選択し、その手順に従います。
RFT トレーニングジョブをモニタリングする
Amazon Bedrock は、RFT トレーニング中にビジュアルグラフとメトリクスによるリアルタイムモニタリングを提供します。これらのメトリクスは、モデルが適切に収束するかどうか、および報酬関数が学習プロセスを効果的に導くかどうかを理解するのに役立ちます。
ジョブステータスの追跡
Amazon Bedrock コンソールで検証フェーズとトレーニングフェーズを通じて RFT ジョブのステータスをモニタリングできます。
完了インジケータ:
-
トレーニングが正常に完了すると、ジョブのステータスは完了に変わります
-
カスタムモデル ARN がデプロイ可能になる
-
トレーニングメトリクスが収束しきい値に達する
リアルタイムトレーニングメトリクス
Amazon Bedrock は、トレーニングと検証のメトリクスを表示するビジュアルグラフを使用して、RFT トレーニング中にリアルタイムモニタリングを提供します。
コアトレーニングメトリクス
-
トレーニング損失 - モデルがトレーニングデータからどの程度学習しているかを測定します
-
トレーニング報酬統計 - 報酬関数によって割り当てられた報酬スコアを表示します
-
報酬マージン - 良い応答報酬と悪い応答報酬の差を測定します
-
トレーニングセットと検証セットの精度 - トレーニングデータとホールドアウトデータの両方でモデルのパフォーマンスを表示します。
詳細なメトリクスカテゴリ
報酬メトリクス –
critic/rewards/mean、critic/rewards/max、critic/rewards/min(報酬分散)、val-score/rewards/mean@1(検証報酬)モデルの動作 –
actor/entropy(ポリシーのバリエーション、高いほど探索的)トレーニングの状態 —
actor/pg_loss(ポリシー勾配損失)、actor/pg_clipfrac(クリップされた更新の頻度)、actor/grad_norm(勾配の大きさ)レスポンス特性 –
prompt_length/mean、prompt_length/max、prompt_length/min(入力トークン統計)response_length/mean、、response_length/min(出力トークン統計)response_length/max、およびresponse/aborted_ratio(不完全な生成レート、0 はすべての完了に等しくなります)パフォーマンス —
perf/throughput(トレーニングスループット)、perf/time_per_step(トレーニングステップあたりの時間)、timing_per_token_ms/*(トークンあたりの処理時間)リソース使用量 –
perf/max_memory_allocated_gb、perf/max_memory_reserved_gb(GPU メモリ)、perf/cpu_memory_used_gb(CPU メモリ)
トレーニングの進行状況の視覚化
コンソールには、RFT ジョブの進行に応じてリアルタイムで更新されるインタラクティブなグラフが表示されます。これらの視覚化は、以下に役立ちます。
-
最適なパフォーマンスへの収束を追跡する
-
潜在的なトレーニング問題を早期に特定する
-
最適な停止ポイントを決定する
-
異なるエポック間でパフォーマンスを比較する
推論をセットアップする
ジョブが完了したら、オンデマンド推論用の RFT モデルをデプロイするか、プロビジョンドスループットを使用して一貫したパフォーマンスを実現します。推論の設定については、「」を参照してくださいカスタムモデルの推論を設定する。
プレイグラウンドでテストを使用してレスポンスを評価し、ベースモデルと比較します。完了した RFT モデルの評価については、「」を参照してくださいRFT モデルを評価する。