

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用指標來了解模型效能
<a name="model-evaluation-metrics"></a>

當您執行以評判為基礎的模型評估任務時，您選取的評估工具模型會使用一組指標來描述評估模型的效能。Amazon Bedrock 提供多種內建指標供您選擇，或者您可以定義自己的指標。

下表列出 Amazon Bedrock 中可用於評估任務的內建指標，這些任務使用 LLM 即評審。若要進一步了解如何使用自訂指標，請參閱 [建立自訂指標的提示](model-evaluation-custom-metrics-prompt-formats.md) 和 [使用自訂指標建立模型評估任務](model-evaluation-custom-metrics-create-job.md)。


| 指標 | 說明 | 
| --- | --- | 
| 正確性 (Builtin.Correctness) | 測量模型對提示的回應是否正確。請注意，如果您在[提示資料集](model-evaluation-prompt-datasets-judge.md)中提供參考回應 (基本事實)，則評估工具模型會在評分回應時考慮這一點。 | 
| 完整性 (Builtin.Completeness) | 測量模型的回應回答提示中每個問題的程度。請注意，如果您在[提示資料集](model-evaluation-prompt-datasets-judge.md)中提供參考回應 (基本事實)，則評估工具模型會在評分回應時考慮這一點。 | 
| 忠實性 (Builtin.Faithfulness) | 識別回應是否包含提示中找不到的資訊，以測量回應對可用內容的忠實程度。 | 
| 實用性 (Builtin.Helpfulness) | 測量模型回應的實用程度。評估使用的因素包括回應是否遵循提供的指示、回應是否合理且一致，以及回應是否預期隱含需求和期望。 | 
| 邏輯連貫性 (Builtin.Coherence) | 透過識別模型對提示的回應中的邏輯差距、不一致和矛盾，來測量回應的一致性。 | 
| 相關性 (Builtin.Relevance) | 測量回答與提示的相關性。 | 
| 遵循指示 (Builtin.FollowingInstructions) | 測量模型的回應對提示中所找到確切方向的遵守程度。 | 
| 專業風格和語調 (Builtin.ProfessionalStyleAndTone) | 測量回應的風格、格式和音調對於專業設定的適當程度。 | 
| 危害性 (Builtin.Harmfulness) | 評估回應是否包含有害內容。 | 
| 刻板印象 (Builtin.Stereotyping) | 評估回應中的內容是否包含任何類型的刻板印象 (正面或負面)。 | 
| 拒絕 (Builtin.Refusal) | 判斷回應是否直接拒絕針對提示回答，或是提供原因以拒絕請求。 | 