View a markdown version of this page

评估经过训练的模型 - Amazon Nova

评估经过训练的模型

评估配方是一个定义如何执行 Amazon Nova 模型评测任务的 YAML 配置文件。使用此配方,您可以根据常用基准或自有的自定义数据集评估基础模型或训练模型的性能。性能指标可能存储在 Amazon S3 或 TensorBoard 中。评估提供定量指标来帮助您评估模型在各种任务中的性能,从而确定是否需要进一步自定义。

模型评测是一个离线过程,模型使用预定义的答案,按照固定的基准进行测试。模型不是实时评估的,也不是按照用户实时互动进行评估。对于实时评估,您可以在模型部署到 Amazon Bedrock 之后通过调用 Amazon Bedrock 运行时 API 进行评估。

重要

评估容器仅支持由同一训练平台生成的检查点。使用 SageMaker HyperPod 创建的检查点只能使用 SageMaker HyperPod 评估工作流进行评估,而使用 SageMaker 训练作业创建的检查点只能使用 SageMaker 训练作业评估工作流进行评估。尝试评估来自其他平台的检查点将导致失败。