本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用另一個 LLM 即評審來評估模型效能
<a name="evaluation-judge"></a>

透過使用評審模型的模型評估任務，Amazon Bedrock 會使用 LLM 對另一個模型的回應進行評分，並說明其如何對每個提示和回應對進行評分。您可透過[評估](https://console.aws.amazon.com/bedrock/home#/eval/evaluation)頁面在 Amazon Bedrock 主控台中取得分數和說明。

這種模型評估需要兩種不同的模型：*產生器模型*和*評估器模型*。您可以在資料集中定義產生器模型的提示，而評估器模型會根據您選取的指標，對那些提示的回應進行評分。

主控台中的指標摘要卡會顯示長條圖，顯示回應收到特定分數的次數，以及在資料集中找到前五個提示的分數說明。您可在建立模型評估任務時指定的 Amazon S3 儲存貯體中取得完整評估任務報告。

建立模型評估任務時，您可以選取 Amazon Bedrock 模型作為產生器模型，也可以在提示資料集中提供自己的推論回應資料來評估非 Amazon Bedrock 模型。如果您提供自己的回應資料，Amazon Bedrock 會略過模型調用步驟，並直接評估您提供的資料。

為了對產生器模型的回應進行評分，Amazon Bedrock 提供一組您可以從中選取的內建指標。每個指標對評估器模型使用不同的提示。您也可以為特定商業案例定義自己的自訂指標。如需進一步了解，請參閱[使用指標來了解模型效能](model-evaluation-metrics.md)。

## 支援的模型
<a name="evaluation-judge-supported"></a>

### 支援的評估器模型 (內建指標)
<a name="evaluation-judge-supported-evaluator"></a>

若要建立評估任務，此任務會使用 LLM 即評審搭配 Amazon Bedrock 內建指標，您需要存取下列清單中至少一個評審模型。若要進一步了解如何存取模型和區域可用性，請參閱[請求存取模型](model-access.md)。
+ Amazon Nova Pro – `amazon.nova-pro-v1:0`
+ Anthropic Claude 3.5 Sonnet v1：`anthropic.claude-3-5-sonnet-20240620-v1:0`
+ Anthropic Claude 3.5 Sonnet v2：`anthropic.claude-3-5-sonnet-20241022-v2:0`
+ Anthropic Claude 3.7 Sonnet – `anthropic.claude-3-7-sonnet-20250219-v1:0`
+ Anthropic Claude 3 Haiku – `anthropic.claude-3-haiku-20240307-v1:0`
+ Anthropic Claude 3.5 Haiku – `anthropic.claude-3-5-haiku-20241022-v1:0`
+ Meta Llama 3.1 70B Instruct – `meta.llama3-1-70b-instruct-v1:0`
+ Mistral Large – `mistral.mistral-large-2402-v1:0`

列出的模型支援[跨區域推論](cross-region-inference.md)設定檔。如需詳細資訊，請參閱 [支援的跨區域推論設定檔](inference-profiles-support.md#inference-profiles-support-system)。

### 支援的評估器模型 (自訂指標)
<a name="evaluation-judge-supported-evaluator-custom"></a>

若要建立評估任務，此任務會使用 LLM 即評審搭配自訂指標，您需要存取下列清單中至少一個評審模型。
+ Mistral Large 24.02：`mistral.mistral-large-2402-v1:0`
+ Mistral Large 24.07：`mistral.mistral-large-2407-v1:0`
+ Anthropic Claude 3.5 Sonnet v1：`anthropic.claude-3-5-sonnet-20240620-v1:0`
+ Anthropic Claude 3.5 Sonnet v2：`anthropic.claude-3-5-sonnet-20241022-v2:0`
+ Anthropic Claude 3.7 Sonnet – `anthropic.claude-3-7-sonnet-20250219-v1:0`
+ Anthropic Claude 3 Haiku 3：`anthropic.claude-3-haiku-20240307-v1:0`
+ Anthropic Claude 3 Haiku 3.5：`anthropic.claude-3-5-haiku-20241022-v1:0`
+ Meta Llama 3.1 70B Instruct – `meta.llama3-1-70b-instruct-v1:0`
+ Meta Llama 3.3 70B Instruct – `meta.llama3-3-70b-instruct-v1:0`
+ Amazon Nova Pro – `amazon.nova-pro-v1:0`

列出的模型支援[跨區域推論](cross-region-inference.md)設定檔。如需詳細資訊，請參閱 [支援的跨區域推論設定檔](inference-profiles-support.md#inference-profiles-support-system)。

### 支援的產生器模型
<a name="evaluation-judge-supported-generator"></a>

您可以在 Amazon Bedrock 中使用下列模型類型，作為評估任務中的產生器模型。您也可以從非 Amazon Bedrock 模型取得自己的推論回應資料。
+ 基礎模型：[搭配 Bedrock 使用模型](foundation-models-reference.md)
+ Amazon Bedrock 市集模型：[Amazon Bedrock 市集](amazon-bedrock-marketplace.md)
+ 自訂的基礎模型：[自訂模型，以改善其針對使用案例的效能](custom-models.md)
+ 匯入的基礎模型：[使用自訂模型匯入，將自訂的開放原始碼模型匯入 Amazon Bedrock](model-customization-import-model.md)
+ 提示路由器：[了解 Amazon Bedrock 中的智慧提示路由](prompt-routing.md)
+ 您已購買佈建輸送量的模型：[使用 Amazon Bedrock 中的佈建輸送量增加模型調用容量](prov-throughput.md)