

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 建立使用 LLM 即評審的模型評估任務
<a name="model-evaluation-judge-create"></a>

您可以使用 AWS 管理主控台AWS CLI或支援的 AWSSDK 建立模型評估任務。

這種類型的任務需要存取評估工具模型。如果您要評估 Amazon Bedrock 模型的效能，您也需要存取該模型。兩個模型都必須在相同的 AWS 區域 中提供。如需支援的產生器和評估工具模型清單，請參閱 [支援的模型](evaluation-judge.md#evaluation-judge-supported)。

## 先決條件
<a name="model-evaluation-judge-create-prereqs"></a>

除了有權存取至少一個評估工具模型之外，若要建立使用 LLM 即評審的評估任務，您也需要特定 IAM 服務角色許可。若要進一步了解必要的動作和信任政策要求，請參閱 [建立使用判斷模型的模型評估任務所需的服務角色許可](judge-service-roles.md)。

建立任務時，您會在 Amazon S3 儲存貯體中指定提示資料集，以及在其中存放結果的輸出儲存貯體。若要確保您的 S3 儲存貯體具有必要的 CORS 許可，請參閱 [S3 儲存貯體上所需的跨來源資源分享 (CORS) 許可](model-evaluation-security-cors.md)

若要在主控台中建立任務，主控台需要執行特定動作集的許可，並可存取所需的資源。下列政策定義在主控台中建立任務所需的一組最低 IAM 許可。在政策中，我們建議使用 IAM JSON 政策元素[資源](https://docs.aws.amazon.com/IAM/latest/UserGuide/reference_policies_elements_resource.html)來限制存取 IAM 使用者、群組或角色所需的模型和儲存貯體。

IAM 政策必須同時授予產生器和評估工具模型的存取權。

### 必要主控台許可
<a name="model-evaluation-judge-create-prereqs-permissions"></a>

------
#### [ JSON ]

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "BedrockConsole",
            "Effect": "Allow",
            "Action": [
                "bedrock:CreateEvaluationJob",
                "bedrock:GetEvaluationJob",
                "bedrock:ListEvaluationJobs",
                "bedrock:StopEvaluationJob",
                "bedrock:GetCustomModel",
                "bedrock:ListCustomModels",
                "bedrock:CreateProvisionedModelThroughput",
                "bedrock:UpdateProvisionedModelThroughput",
                "bedrock:GetProvisionedModelThroughput",
                "bedrock:ListProvisionedModelThroughputs",
                "bedrock:GetImportedModel",
                "bedrock:ListImportedModels",
                "bedrock:ListTagsForResource",
                "bedrock:UntagResource",
                "bedrock:TagResource"
            ],
            "Resource": [
                "arn:aws:bedrock:{{us-west-2}}::foundation-model/*;"
            ]
        },
        {
            "Sid": "AllowConsoleS3AccessForModelEvaluation",
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:GetBucketCORS",
                "s3:ListBucket",
                "s3:ListBucketVersions",
                "s3:GetBucketLocation"
            ],
            "Resource": [
                "arn:aws:s3:::{{amzn-s3-demo-destination-bucket}}/*",
                "arn:aws:s3:::{{input_datasets/prompts.jsonl}}"
            ]
        }
    ]
}
```

------

**注意**  
此範例政策提供所有 Amazon Bedrock 基礎模型的許可。在生產環境中，我們建議您遵循[最低權限](https://docs.aws.amazon.com/IAM/latest/UserGuide/best-practices.html#grant-least-privilege)的主體，並僅授予所需模型的許可。

您可以僅使用 Amazon Bedrock 的內建指標建立評估任務，也可以建立使用自訂指標的任務。如需建立模型評估任務的指示，請參閱下列各節。

**Topics**
+ [先決條件](#model-evaluation-judge-create-prereqs)
+ [使用內建指標建立模型評估任務](model-evaluation-built-in-metrics.md)
+ [使用自訂指標建立模型評估任務](model-evaluation-custom-metrics-create-job.md)