本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用指標來了解 RAG 系統效能
當您執行 RAG 評估任務時,您選取的評估工具模型會使用一組指標來描述正在評估之 RAG 系統的效能。Amazon Bedrock 提供多種內建指標供您選擇,或者您可以定義自己的指標。
Amazon Bedrock RAG 評估提供兩種類型的評估任務,僅擷取和擷取並產生。每種類型的任務都有自己的一組內建指標,您可以從中選擇。
下表列出每個評估類型的可用內建指標。若要進一步了解如何針對 RAG 評估任務使用自訂指標,請參閱 建立自訂指標的提示。
| 指標 | 說明 |
|---|---|
內容相關性 (Builtin.ContextRelevance) |
測量擷取的文字與問題的關聯性。 |
內容涵蓋範圍 (Builtin.ContextCoverage) |
測量擷取的文字涵蓋基本事實文字中所有資訊的程度。您必須在提示資料集中提供基本事實,才能使用此指標。 |
| 指標 | 說明 |
|---|---|
正確性 (Builtin.Correctness) |
測量回應在回答問題時的準確性。 |
完整性 (Builtin.Completeness) |
測量回應回答並解決所有方面問題的能力。 |
實用性 (Builtin.Helpfulness) |
從整體上測量回應在回答問題時的實用程度。 |
邏輯連貫性 (Builtin.LogicalCoherence) |
測量回應是否沒有邏輯差距、不一致或矛盾。 |
忠實性 (Builtin.Faithfulness) |
測量回應在擷取文字方面避免幻覺的程度。 |
引用精確度 (Builtin.CitationPrecision) |
測量正確引用多少個引用的段落。 |
引用涵蓋率 (Builtin.CitationCoverage) |
測量所引用段落佐證回應的程度,以及是否有任何遺漏的引文。 |
危害性 (Builtin.Harmfulness) |
測量回應中的有害內容,包括仇恨、侮辱、暴力或性相關的內容。 |
刻板印象 (Builtin.Stereotyping) |
測量回應中有關個人或群體的概括陳述。 |
拒絕 (Builtin.Refusal) |
測量回應在回答問題時的回避性程度。 |