

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 评估优化模型的性能
<a name="model-optimize-evaluate"></a>

使用优化作业创建优化模型后，您可以运行模型性能评估。该评估可得出延迟、吞吐量和价格等指标。使用这些指标来确定优化后的模型是否满足使用场景需求，或者是否需要进一步优化。

只有使用 Studio 才能进行性能评估。此功能不是通过亚马逊 AI AP SageMaker I 或 Python 软件开发工具包提供的。

## 开始前的准备工作
<a name="eval-prereqs"></a>

在创建性能评估之前，您必须首先通过创建推理优化作业来优化模型。在 Studio 中，您只能对使用这些作业创建的模型进行评估。

## 创建性能评估
<a name="create-perf-eval"></a>

在 Studio 中完成以下步骤，为优化模型创建性能评估。

1. 在 Studio 导航菜单的**作业**下，选择**推理优化**。

1. 选择创建要评估的优化模型的作业名称。

1. 在作业详情页面，选择**评估性能**。

1. 在 “**评估性能**” 页面上，某些 JumpStart型号要求您签署最终用户许可协议 (EULA)，然后才能继续。如果需要，请查看**许可协议**部分中的许可条款。如果您可以接受使用条款，请选择**我接受 EULA 并阅读条款和条件**的复选框。

1. 对于**选择分词器的模型**，接受默认值，或选择特定模型作为评估的分词器。

1. 对于**输入数据集**，选择是否：
   + 使用来自 SageMaker AI 的默认示例数据集。
   + 提供指向自己样本数据集的 S3 URI。

1. 对于**用于性能结果的 S3 URI**，请提供指向 Amazon S3 中存储评估结果的位置的 URI。

1. 选择**评估**。

   Studio 会显示**性能评估**页面，表格中显示了您的评估作业。**状态**列显示评估的状态。

1. 当状态为**已完成**时，选择作业名称即可查看评估结果。

评估详细信息页面显示了提供延迟、吞吐量和价格等性能指标的表格。有关每个指标的更多信息，请参阅 [推理性能评估参考指标](#performance-eval-metrics-reference)。

## 推理性能评估参考指标
<a name="performance-eval-metrics-reference"></a>

成功评估优化模型的性能后，Studio 中的评估详细信息页面会显示以下指标。

### 延迟指标
<a name="latency-metrics"></a>

**延迟**部分显示以下指标

**并发**  
评估模拟同时调用端点的并发用户数量。

**到第一个令牌的时间（单位：毫秒）**  
从发送请求到收到流式传输响应的第一个令牌之间的时间间隔。

**令牌间延迟（单位：毫秒）**  
为每个请求生成输出令牌的时间。

**客户端延迟（单位：毫秒）**  
从发送请求到收到整个响应的请求延迟时间。

**输入 tokens/sec （计数）**  
所有请求中生成的输入令牌总数除以并发的总持续时间（单位：秒）。

**输出 tokens/sec （计数）**  
所有请求中生成的输出令牌总数除以并发的总持续时间（以秒为单位）。

**客户端调用（次数）**  
并发时所有用户向端点发送的推理请求总数。

**客户端调用错误（次数）**  
在给定并发量下，所有用户向端点发送的推理请求中导致调用错误的请求总数。

**令牌转换器失败（次数）**  
令牌转换器未能解析请求或响应的推理请求总数。

**无效推理响应（次数）**  
导致输出令牌为零或令牌转换器无法解析响应的推理请求总数。

### 吞吐量指标
<a name="throughput-metrics"></a>

**吞吐量**部分显示以下指标。

**并发**  
评估模拟同时调用端点的并发用户数量。

**输入tokens/sec/req（计数）**  
每个请求每秒生成的输入令牌总数。

**输出tokens/sec/req（计数）**  
每个请求每秒生成的输出令牌总数。

**输入令牌（次数）**  
每次请求生成的输入令牌总数。

**输出令牌（次数）**  
每次请求生成的输出令牌总数。

### 价格指标
<a name="price-metrics"></a>

**价格**部分显示了以下指标。

**并发**  
评估模拟同时调用端点的并发用户数量。

**每百万输入令牌的价格**  
处理 100 万个输入令牌的成本。

**每百万输出令牌的价格**  
生成 100 万个输出令牌的成本。