本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 经过优化的生成式 AI 推理建议
<a name="generative-ai-inference-recommendations"></a>

Amazon SageMaker AI 现在支持推理建议，该功能无需手动优化和基准测试，从而提供最佳的推理性能。您无需手动测试 GPU 实例类型、提供容器、并行策略和优化技术的组合，而是提供模型和工作负载要求， SageMaker AI 会返回经过验证的、具有真实性能指标的部署就绪配置。

推理建议分析模型的架构，缩小配置空间，并应用与目标一致的优化，例如吞吐量的推测性解码和延迟的内核调整。通过评估多种实例类型，您可以为自己的工作负载选择性价比最高的选项。它在真实的 GPU 基础架构上对每种配置进行基准测试，因此您可以放心地进行部署并调整推理支出。

## 工作原理
<a name="generative-ai-inference-recommendations-how-it-works"></a>

无论是通过 SageMaker AI Studio 还是 AI AP SageMaker I，都可以直接开始使用推理建议。以下步骤描述了工作流程。

1. **准备您的模型。**指向 Amazon S3 或 A SageMaker I 模型注册表中的模型项目。推理建议支持带有 SafeTensor 权重的 HuggingFace 检查点格式，包括基础模型和自定义或微调模型。

1. **定义您的工作负载。**描述您的预期流量模式，包括输入和输出代币分配以及并发级别。您可以使用内联规范或来自 Amazon S3 的代表性数据集。

1. **设定目标。**选择一个性能目标：优化成本、最大限度地减少延迟或最大限度地提高吞吐量。最多选择三种实例类型进行比较。

1. **查看结果。** SageMaker AI 返回具有真实性能指标的经过验证的配置：首次代币时间 (TTFT)、令牌间延迟、请求延迟 P50/P90/P99、吞吐量和每个配置的成本。每种配置都已准备就绪，可以部署。

1. **部署。**通过 AI Studio 中的单个操作或通过 AP SageMaker I 以编程方式将所选配置部署到 SageMaker AI 推理端点。

您还可以对现有生产端点进行基准测试，以验证当前性能或与新配置进行比较。

## 使用案例
<a name="generative-ai-inference-recommendations-use-cases"></a>

以下是推理建议的常见用例。
+ **Pre-deployment 验证。**在投入生产部署之前，先对新模型进行优化和基准测试。在投资扩展模型之前，请先验证模型的性能。
+ **更新后的回归测试。**在容器更新、框架升级或服务库发布后验证性能。在投入生产之前，请确认您的配置仍处于最佳状态。
+ **Right-sizing 当条件发生变化时。**当流量模式发生变化或有新的实例类型可用时，请在几小时内重新运行推理建议，而不是重新启动长达一周的手动流程。
+ **模型比较。**比较不同实例类型的不同模型变体的性能和成本，以便在生产部署之前做出明智的选择。
+ **成本优化。**对现有生产端点进行基准测试，以识别过度配置的基础架构。使用结果来调整规模并减少重复的推理支出。

## 定价
<a name="generative-ai-inference-recommendations-pricing"></a>

推理建议不收取额外服务费。您可以免费使用现有的 ML 预留（灵活培训计划），也可以使用自动配置的按需计算。

## 支持的区域：
<a name="generative-ai-inference-recommendations-regions"></a>

以下 AWS 区域提供推理建议：
+ 美国东部（弗吉尼亚州北部）
+ 美国东部（俄亥俄州）
+ 美国西部（俄勒冈州）
+ 亚太地区（新加坡）
+ 亚太地区（东京）
+ 欧洲地区（法兰克福）
+ 欧洲地区（爱尔兰）