评估经过训练的模型

评估配方是一个定义如何执行 Amazon Nova 模型评测任务的 YAML 配置文件。使用此配方，您可以根据常用基准或自有的自定义数据集评估基础模型或训练模型的性能。性能指标可能存储在 Amazon S3 或 TensorBoard 中。评估提供定量指标来帮助您评估模型在各种任务中的性能，从而确定是否需要进一步自定义。

模型评测是一个离线过程，模型使用预定义的答案，按照固定的基准进行测试。模型不是实时评估的，也不是按照用户实时互动进行评估。对于实时评估，您可以在模型部署到 Amazon Bedrock 之后通过调用 Amazon Bedrock 运行时 API 进行评估。

注意

您也可通过开源评测框架 Inspect AI 完成模型评测。该框架支持标准化评测基准与自定义评测作业。

重要

评估容器仅支持由同一训练平台生成的检查点。使用 SageMaker HyperPod 创建的检查点只能使用 SageMaker HyperPod 评估工作流进行评估，而使用 SageMaker 训练作业创建的检查点只能使用 SageMaker 训练作业评估工作流进行评估。尝试评估来自其他平台的检查点将导致失败。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

近端策略优化 (PPO)

可用的基准测试任务