View a markdown version of this page

評価者とリフレクション/絞り込みループのワークフロー - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

評価者とリフレクション/絞り込みループのワークフロー

このワークフローは、1 つの LLM が結果を生成し、別の が結果を評価または批評するフィードバックループを提供します。これにより、自己リフレクション、最適化、反復的な改善が促進されます。

評価者のワークフロー。

評価者ワークフローは、出力の品質、精度、調整が重要で、単一パス生成の信頼性が低い、または不十分なシナリオに最適です。このワークフローは、より高い正確性基準を満たすため、またはフィードバックに基づいて改善された代替案を検討するために、エージェントが出力を自己批判、反復、および絞り込む必要があるときに優れています。

このワークフローは、次の場合に特に効果的です。

  • 出力には、主観的な品質メトリクス (スタイル、トーン、読みやすさなど) または目標基準 (正確性、安全性、パフォーマンスなど) が含まれます。

  • エージェントは、トレードオフを通じて推論し、制約を評価し、目標に向けて最適化する必要があります。

  • 特に規制対象ドメイン、顧客向けドメイン、またはクリエイティブドメインでは、組み込みの冗長性と品質保証が必要です。

  • ヒューHuman-in-the-loopレビューは高価または利用できないため、自律的な検証が必要です。

このワークフローは、コンテンツ生成、コード合成とレビュー、ポリシーの適用、アライメントチェック、指示調整、RAG 後処理に使用されます。また、継続的なフィードバックが時間の経過とともにより良い対応を形成し、信頼できる自律的な決定ループを構築するのに役立つ自己改善エージェントにも役立ちます。

一般的なユースケース

  • ブルーチームエージェントと比較したレッドチームエージェント

  • コードまたは計画を生成、評価、および改訂するエージェント

  • 品質保証、幻覚検出、スタイルの適用

機能

  • さまざまなモデルを使用した分離された生成と評価をサポート (生成には Claude、評価には Mistral など)

  • フィードバックは構造化され、改訂された出力を促すために使用されます。

  • 複数の反復または収束のしきい値をサポート