

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 评估 Studio 中的文本生成基础模型
<a name="jumpstart-foundation-models-evaluate"></a>

**注意**  
基础模型评估 (FMEval) 是 Amazon Clarif SageMaker y 的预览版，可能会发生变化。

**重要**  
要使用 Clari SageMaker fy 基础模型评估，您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日，之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息，请参阅 [从亚马逊 SageMaker Studio 经典版迁移](studio-updated-migrate.md)。有关使用 Studio Classic 应用程序的信息，请参阅 [亚马逊 SageMaker Studio 经典版](studio.md)。

亚马逊 SageMaker JumpStart 已与 Studio 中的 C SageMaker larify 基础模型评估 (FMEval) 集成。如果 JumpStart 模型具有内置评估功能，则可以在 JumpStart Studio 用户界面中模型详情页面的右上角选择**评估**。有关在 JumpStart Studio 用户界面中导航的更多信息，请参阅 [JumpStart 在工作室中打开](studio-jumpstart.md#jumpstart-open-studio)

使用 Amazon SageMaker JumpStart 来评估基于文本的基础模型。 FMEval您可以使用这些模型评估来比较一个模型、两个模型之间或同一模型的不同版本之间的模型质量和责任指标，以帮助您量化模型风险。 FMEval 可以评估执行以下任务的基于文本的模型：
+  **开放式生成**：对没有预先定义结构的文本做出自然的人类反应。
+  **文本摘要**：生成简明扼要的摘要，同时保留长文本中的含义和关键信息。
+  **问题解答**：用自然语言回答问题。
+  **分类**：根据文本内容，将文本段落分为 `negative` 类和 `positive` 类。

您可以使用 FMEval 根据特定基准自动评估模型响应。您还可以使用自己的提示数据集，根据自己的标准评估模型响应。 FMEval 提供了一个用户界面 (UI)，可指导您完成评估任务的设置和配置。您也可以在自己的代码中使用该 FMEval 库。

每次评估都需要两个实例的配额：
+ 托管实例：托管和部署 LLM 的实例。
+ 评估实例：用于在主机实例上提示和执行 LLM 评估的实例。

如果您的 LLM 已部署，请提供终端节点， SageMaker AI 将使用您的**托管实例来托管**和部署 LLM。

如果您正在评估尚未部署到您的账户的 JumpStart 模型，请在您的账户中为您 FMEval 创建一个临时**托管实例**，并且仅在评估期间保持部署状态。 FMEval 使用为所选 LLM JumpStart 推荐的默认实例作为您的托管实例。您必须拥有足够的配额才能使用此推荐实例。

每次评估都会使用评估实例来提示 LLM 的响应并为其打分。您还必须拥有足够的配额和内存来运行评估算法。评估实例的配额和内存需求通常小于托管实例的需求。我们建议选择 `ml.m5.2xlarge` 实例。有关配额和内存的更多信息，请参阅 [解决在 Amazon A SageMaker I 中创建模型评估任务时出现的错误](clarify-foundation-model-evaluate-troubleshooting.md)。

自动评估可用于对以下维度 LLMs 进行评分：
+ 准确性：适用于文本摘要、问答和文本分类
+ 语义稳健性：适用于开放式生成、文本摘要和文本分类任务
+ 事实知识：适用于开放式一代
+ 提示定式：适用于开放式一代 
+  毒性：适用于开放式生成、文本摘要和问答

您还可以使用人工评估来手动评估模型响应。 FMEval 用户界面将引导您完成选择一个或多个模型、配置资源、为员工编写说明和联系员工的工作流程。人体评估完成后，结果将显示在中 FMEval。

您可以通过 Studio 的 JumpStart 登录页面访问模型评估，方法是选择要评估的模型，然后选择**评估**。请注意，并非所有 JumpStart 模型都具有可用的评估功能。有关如何配置、配置和运行的更多信息 FMEval，请参阅[什么是基础模型评估？](https://docs.aws.amazon.com/sagemaker/latest/dg/clarify-foundation-model-evaluate.html)