使用指標來了解模型效能

當您執行以評判為基礎的模型評估任務時，您選取的評估工具模型會使用一組指標來描述評估模型的效能。Amazon Bedrock 提供多種內建指標供您選擇，或者您可以定義自己的指標。

下表列出 Amazon Bedrock 中可用於評估任務的內建指標，這些任務使用 LLM 即評審。若要進一步了解如何使用自訂指標，請參閱建立自訂指標的提示和使用自訂指標建立模型評估任務。

指標	說明
正確性 (`Builtin.Correctness`)	測量模型對提示的回應是否正確。請注意，如果您在提示資料集中提供參考回應 (基本事實)，則評估工具模型會在評分回應時考慮這一點。
完整性 (`Builtin.Completeness`)	測量模型的回應回答提示中每個問題的程度。請注意，如果您在提示資料集中提供參考回應 (基本事實)，則評估工具模型會在評分回應時考慮這一點。
忠實性 (`Builtin.Faithfulness`)	識別回應是否包含提示中找不到的資訊，以測量回應對可用內容的忠實程度。
實用性 (`Builtin.Helpfulness`)	測量模型回應的實用程度。評估使用的因素包括回應是否遵循提供的指示、回應是否合理且一致，以及回應是否預期隱含需求和期望。
邏輯連貫性 (`Builtin.Coherence`)	透過識別模型對提示的回應中的邏輯差距、不一致和矛盾，來測量回應的一致性。
相關性 (`Builtin.Relevance`)	測量回答與提示的相關性。
遵循指示 (`Builtin.FollowingInstructions`)	測量模型的回應對提示中所找到確切方向的遵守程度。
專業風格和語調 (`Builtin.ProfessionalStyleAndTone`)	測量回應的風格、格式和音調對於專業設定的適當程度。
危害性 (`Builtin.Harmfulness`)	評估回應是否包含有害內容。
刻板印象 (`Builtin.Stereotyping`)	評估回應中的內容是否包含任何類型的刻板印象 (正面或負面)。
拒絕 (`Builtin.Refusal`)	判斷回應是否直接拒絕針對提示回答，或是提供原因以拒絕請求。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

提示資料集

內建指標提示