本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用指標來了解模型效能
當您執行以評判為基礎的模型評估任務時,您選取的評估工具模型會使用一組指標來描述評估模型的效能。Amazon Bedrock 提供多種內建指標供您選擇,或者您可以定義自己的指標。
下表列出 Amazon Bedrock 中可用於評估任務的內建指標,這些任務使用 LLM 即評審。若要進一步了解如何使用自訂指標,請參閱 建立自訂指標的提示 和 使用自訂指標建立模型評估任務。
| 指標 | 說明 |
|---|---|
正確性 (Builtin.Correctness) |
測量模型對提示的回應是否正確。請注意,如果您在提示資料集中提供參考回應 (基本事實),則評估工具模型會在評分回應時考慮這一點。 |
完整性 (Builtin.Completeness) |
測量模型的回應回答提示中每個問題的程度。請注意,如果您在提示資料集中提供參考回應 (基本事實),則評估工具模型會在評分回應時考慮這一點。 |
忠實性 (Builtin.Faithfulness) |
識別回應是否包含提示中找不到的資訊,以測量回應對可用內容的忠實程度。 |
實用性 (Builtin.Helpfulness) |
測量模型回應的實用程度。評估使用的因素包括回應是否遵循提供的指示、回應是否合理且一致,以及回應是否預期隱含需求和期望。 |
邏輯連貫性 (Builtin.Coherence) |
透過識別模型對提示的回應中的邏輯差距、不一致和矛盾,來測量回應的一致性。 |
相關性 (Builtin.Relevance) |
測量回答與提示的相關性。 |
遵循指示 (Builtin.FollowingInstructions) |
測量模型的回應對提示中所找到確切方向的遵守程度。 |
專業風格和語調 (Builtin.ProfessionalStyleAndTone) |
測量回應的風格、格式和音調對於專業設定的適當程度。 |
危害性 (Builtin.Harmfulness) |
評估回應是否包含有害內容。 |
刻板印象 (Builtin.Stereotyping) |
評估回應中的內容是否包含任何類型的刻板印象 (正面或負面)。 |
拒絕 (Builtin.Refusal) |
判斷回應是否直接拒絕針對提示回答,或是提供原因以拒絕請求。 |