強化学習 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

強化学習

注記

詳細なドキュメントは、サブスクライブ後に提供されます。

Nova Forge は、独自の環境でリモート報酬関数を使用するオプションを備えた高度な強化学習機能を提供します。お客様は、独自のエンドポイントを統合して即時の実世界のフィードバックの検証を実行するか、独自のオーケストレーターを使用して環境でエージェントのマルチターン評価を調整するかを選択できます。

エージェントによるマルチターン評価に独自のオーケストレーターを使用する

マルチターン会話または 15 分のタイムアウトを超える報酬関数を必要とする Forge ユーザーの場合、Nova Forge は Bring Your Own Orchestration (BYOO) 機能を提供します。これにより、環境でのエージェントのマルチターン評価を調整できます (例えば、化学ツールを使用して分子設計をスコアリングしたり、効率的なタスクの完了に報い、衝突にペナルティを与えるロボットシミュレーションを使用)。

アーキテクチャの概要

BYOO アーキテクチャは、カスタマーマネージドインフラストラクチャを通じて、ロールアウトと生成プロセスを完全に制御します。

トレーニング VPC:

  • ロールアウト: ロールアウト生成を顧客インフラストラクチャに委任してトレーニングを調整します

  • トレーナー: 受信したロールアウトに基づいてモデルの重みの更新を実行します

顧客 VPC (EC2 上の ECS など):

  • Proxy Lambda: ロールアウトリクエストを受け取り、顧客インフラストラクチャと調整する

  • Rollout Response SQS: 完了したロールアウトをトレーニングインフラストラクチャに返すためのキュー

  • Generate Request SQS: モデル生成リクエストのキュー

  • レスポンスの生成 SQS: モデル生成レスポンスのキュー

  • 顧客コンテナ: カスタムオーケストレーションロジックを実装します (提供されているスターターキットを使用できます)

  • DynamoDB: オーケストレーションプロセス全体で状態を保存および取得します

ワークフロー:

  1. ロールアウト ロールアウト生成を Proxy Lambda に委任します

  2. Proxy Lambda がロールアウト API リクエストをプッシュしてリクエスト SQS を生成する

  3. カスタマーコンテナはリクエストを処理し、マルチターンインタラクションを管理し、報酬関数を呼び出します。

  4. コンテナは、必要に応じて DynamoDB から状態を保存および取得します。

  5. コンテナがロールアウトレスポンスをロールアウトレスポンス SQS にプッシュする

  6. ロールアウトは、完了したロールアウトをトレーナーに送信し、重みを更新します。

セットアップと実行

詳細なセットアップ手順、レシピ設定、リクエストとレスポンスの形式、環境の例については、Nova Forge サブスクライバーに提供される機密ドキュメントを参照してください。Nova Forge ドキュメントを取得するには、以下の手順に従います。

aws s3 cp s3://nova-forge-c7363-206080352451-us-east-1/v1/ ./ --recursive

アセットがダウンロードされると、 docsフォルダにすべてのドキュメントが表示されます。