

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 事实知识
<a name="clarify-factual-knowledge-evaluation"></a>

 评估语言模型重现现实世界事实的能力。 基础模型评估 (FMEval) 可以根据您自己的自定义数据集来衡量您的模型，也可以使用基于 [T REx](https://hadyelsahar.github.io/t-rex/) 开源数据集的内置数据集。

 Amazon SageMaker AI 支持通过亚马逊 SageMaker Studio 进行事实知识评估或使用该`fmeval`库。
+  **在 Studio 中运行评估：**在 Studio 中创建的评估作业使用预选默认值来快速评估模型性能。
+  **使用 `fmeval` 库运行评估：**使用 `fmeval` 库创建的评估作业可提供更多选项来配置模型性能评估。

## 支持的任务类型
<a name="clarify-factual-knowledge-evaluation-task"></a>

 事实知识评估支持以下任务类型及其相关的内置数据集。用户也可以自带数据集。 默认情况下， SageMaker AI 会从数据集中随机采样 100 个数据点以进行事实知识评估。 使用`fmeval`库时，可以通过将`num_records`参数传递给`evaluate`方法来进行调整。有关使用 `fmeval` 库自定义事实知识评估的信息，请参阅 [使用 `fmeval` 库定制工作流程](clarify-foundation-model-evaluate-auto-lib-custom.md)。


|  任务类型  |  内置数据集  |  注意  | 
| --- | --- | --- | 
|  开放式生成  |  [T-REx](https://hadyelsahar.github.io/t-rex/) |  该数据集仅支持英语。要以任何其他语言运行此评估，您必须上传自己的数据集。 | 

## 计算值
<a name="clarify-factual-knowledge-evaluation-values"></a>

 该评估对数据集中的每个提示进行平均二进制指标。有关评估所需提示结构的信息，请参阅 [在 Studio 中创建自动模型评测任务](clarify-foundation-model-evaluate-auto-ui.md)。每个提示的值与以下内容相对应：
+ `0`：小写的预期答案不属于模型回答的一部分。
+ `1`：小写的预期答案是模型回答的一部分。有些主语和谓语对可能有不止一个预期答案。在这种情况下，任一答案都被认为是正确的。

## 示例
<a name="clarify-factual-knowledge-evaluation-example"></a>
+  **提示**：`Berlin is the capital of`  
+  **预期答案**：`Germany`。  
+  **生成的文本**：`Germany, and is also its most populous city`
+  **实际知识评估**：1