View a markdown version of this page

評估者和反射改進迴圈的工作流程 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

評估者和反射改進迴圈的工作流程

此工作流程提供回饋迴圈,一個 LLM 產生結果,另一個 LLM 評估或評論結果。這可提升自我反射、最佳化和反覆改進。

評估者的工作流程。

評估器工作流程非常適合輸出品質、準確性和一致性很重要,以及產生單一通道不可靠或不足的情況。當客服人員必須自我批評、反覆運算和精簡其輸出時,此工作流程會更好,無論是符合更高的正確性標準,還是根據意見回饋探索改善的替代方案。

此工作流程在以下情況特別有效:

  • 輸出涉及主觀品質指標 (例如,風格、色調和可讀性) 或目標條件 (例如,正確性、安全性和效能)。

  • 客服人員必須透過權衡、評估限制或最佳化目標來推斷。

  • 您需要內建備援和品質保證,尤其是在受管制、面向客戶或創意領域。

  • Human-in-the-loop審核非常昂貴或無法使用,需要自動驗證。

此工作流程用於內容產生、程式碼合成和檢閱、政策強制執行、一致性檢查、指令調校和 RAG 後製處理。它也適用於自我改善客服人員,其中持續意見回饋有助於隨著時間的推移形成更好的回應,以建立值得信任的自動決策迴圈。

常用案例

  • 與藍隊客服人員相比的紅隊客服人員

  • 產生、評估和修訂程式碼或計劃的代理程式

  • 品質保證、幻覺偵測和風格強制執行

功能

  • 支援使用不同模型的解耦產生和評估 (例如,產生 Claude 和評估 Mistral)

  • 意見回饋是結構化的,用於提示修改後的輸出

  • 支援多個反覆運算或收斂閾值