本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Amazon 上部署模型 SageMaker HyperPod
SageMaker HyperPod 现在,Amazon 不仅仅是培训,还提供了一个全面的推理平台,该平台将 Kubernetes 的灵活性与托管服务的卓越运营相结合。AWS在整个模型生命周期中使用相同的 HyperPod 计算,以企业级可靠性部署、扩展和优化您的机器学习模型。
亚马逊 SageMaker HyperPod 提供灵活的部署接口,允许您通过多种方法部署模型,包括 kubectl、Python SDK、Amazon SageMaker Studio 用户界面或 CLI HyperPod 。该服务提供了先进的自动扩缩功能,并配备可根据需求自动调整的动态资源分配机制。此外,它还包括全面的可观察性和监控功能,可跟踪延迟和 GPU 利用率等 time-to-first-token关键指标,以帮助您优化性能。
注意
在支持 GPU 的实例上部署时,您可以使用 GPU 分区和多实例 GPU (MIG) 技术,在单个 GPU 上运行多个推理工作负载。这可以提高GPU利用率和成本优化。有关配置 GPU 分区的更多信息,请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod。
用于训练和推理的统一基础设施
通过在训练工作负载和推理工作负载之间无缝过渡计算资源,最大限度地提高 GPU 利用率。这可降低总拥有成本,并保持运营连续性。
企业就绪部署选项
部署来自多个来源的模型,包括来自亚马逊的开放权重和门控模型,以及支持单节点 SageMaker JumpStart 和多节点推理架构的 Amazon FSx S3 和 Amazon 的自定义模型。
托管分层键值 (KV) 缓存和智能路由
KV 缓存会在处理之前的令牌后保存预先计算的键值向量。处理下一个标记时,不需要重新计算向量。通过双层缓存架构,您可以配置使用 CPU 内存实现低延迟本地重复使用的 L1 缓存,以及利用 Redis 实现可扩展的节点级缓存共享的 L2 缓存。
智能路由分析传入的请求,并将它们定向到最有可能包含相关缓存键值对的推理实例。系统会检查请求,然后根据以下路由策略之一对其进行路由:
prefixaware— 具有相同提示前缀的后续请求将路由到同一个实例kvaware— 传入的请求将路由到 KV 缓存命中率最高的实例。session— 来自同一用户会话的请求被路由到同一个实例。roundrobin— 在不考虑 KV 缓存状态的情况下均匀分配请求。
有关如何启用此功能的更多信息,请参阅配置 KV 缓存和智能路由以提高性能。
内置 L2 缓存分层存储支持 KV 缓存
在现有 KV 缓存基础架构的基础上, HyperPod 现在与 Redis 一起集成了分层存储,作为附加的 L2 后端选项。借助内置的 SageMaker托管分层存储,这可以提高性能。此增强功能为客户提供了更具可扩展性和更高效的缓存卸载选项,对于高吞吐量 LLM 推理工作负载尤其有利。该集成保持了与现有 vLLM 型号服务器和路由功能的兼容性,同时提供了更好的性能。
注意
我们收集某些常规运营指标,以提供基本的服务可用性。这些指标的创建是完全自动化的,不涉及对底层模型推理工作负载的人工审查。这些指标与部署操作、资源管理和端点注册有关。