Real-time 推断

Real-time 推理非常适合需要实时、交互式、低延迟的推理工作负载。您可以将模型部署到 SageMaker AI 托管服务，并获得可用于推理的终端节点。这些端点是完全托管的，并支持自动扩缩（请参阅自动缩放 Amazon SageMaker 人工智能模型）。您可以使用增强的指标监控终端节点上的单个实例和容器（请参阅Amazon SageMaker AI 增强了推理终端节点的指标）。

主题

为实时推理部署模型
调用模型进行实时推理
使用 OpenAI-compatible API 调用终端节点
了解如何查看、监控和管理 SageMaker 端点。
托管选项
自动缩放 Amazon SageMaker 人工智能模型
实例存储卷
验证生产中的模型
使用 Clarify 进行在线解释 SageMaker
使用实例池部署到多个实例类型
Fine-tune 带有适配器推理组件的模型

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

纠正 Inference Recommender 错误

部署模型