強化学習

注記

詳細なドキュメントは、サブスクライブ後に提供されます。

Nova Forge は、独自の環境でリモート報酬関数を使用するオプションを備えた高度な強化学習機能を提供します。お客様は、独自のエンドポイントを統合して即時の実世界のフィードバックの検証を実行するか、独自のオーケストレーターを使用して環境でエージェントのマルチターン評価を調整するかを選択できます。

エージェントによるマルチターン評価に独自のオーケストレーターを使用する

マルチターン会話または 15 分のタイムアウトを超える報酬関数を必要とする Forge ユーザーの場合、Nova Forge は Bring Your Own Orchestration (BYOO) 機能を提供します。これにより、環境でのエージェントのマルチターン評価を調整できます (例えば、化学ツールを使用して分子設計をスコアリングしたり、効率的なタスクの完了に報い、衝突にペナルティを与えるロボットシミュレーションを使用）。

アーキテクチャの概要

BYOO アーキテクチャは、カスタマーマネージドインフラストラクチャを通じて、ロールアウトと生成プロセスを完全に制御します。

トレーニング VPC:

ロールアウト: ロールアウト生成を顧客インフラストラクチャに委任してトレーニングを調整します
トレーナー: 受信したロールアウトに基づいてモデルの重みの更新を実行します

顧客 VPC (EC2 上の ECS など):

Proxy Lambda: ロールアウトリクエストを受け取り、顧客インフラストラクチャと調整する
Rollout Response SQS: 完了したロールアウトをトレーニングインフラストラクチャに返すためのキュー
Generate Request SQS: モデル生成リクエストのキュー
レスポンスの生成 SQS: モデル生成レスポンスのキュー
顧客コンテナ: カスタムオーケストレーションロジックを実装します (提供されているスターターキットを使用できます)
DynamoDB: オーケストレーションプロセス全体で状態を保存および取得します

ワークフロー:

ロールアウトロールアウト生成を Proxy Lambda に委任します
Proxy Lambda がロールアウト API リクエストをプッシュしてリクエスト SQS を生成する
カスタマーコンテナはリクエストを処理し、マルチターンインタラクションを管理し、報酬関数を呼び出します。
コンテナは、必要に応じて DynamoDB から状態を保存および取得します。
コンテナがロールアウトレスポンスをロールアウトレスポンス SQS にプッシュする
ロールアウトは、完了したロールアウトをトレーナーに送信し、重みを更新します。

セットアップと実行

詳細なセットアップ手順、レシピ設定、リクエストとレスポンスの形式、環境の例については、Nova Forge サブスクライバーに提供される機密ドキュメントを参照してください。Nova Forge ドキュメントを取得するには、以下の手順に従います。


aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

アセットがダウンロードされると、 docsフォルダにすべてのドキュメントが表示されます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

教師ありファインチューニング

責任ある AI ツールキット