Amazon SageMaker HyperPod Inference 发行说明

本主题涵盖了跟踪 Amazon SageMaker HyperPod Inference 的更新、修复和新功能的发行说明。 SageMaker HyperPod 推理使您能够以企业级的可靠性在 HyperPod 集群上部署和扩展机器学习模型。有关 Amazon SageMaker HyperPod 平台的一般版本、更新和改进，请参阅亚马逊 SageMaker HyperPod 发行说明。

有关 SageMaker HyperPod 推理功能和部署选项的信息，请参阅在 Amazon 上部署模型 SageMaker HyperPod。

SageMaker HyperPod 推理发行说明：v3.2

发布日期：2026 年 6 月 12 日

摘要

推理运算符 v3.2 使客户能够在并发负载下部署具有可预测每个令牌延迟的长上下文 LLM（例如 Llama 3.3 70B）。该版本引入了分解预填和解码 (DPD)，它将计算绑定预填阶段和内存带宽限制的解码阶段分开到不同的 GPU 池中，并通过 EFA 和 RDMA 在它们之间传输 KV 缓存。 GPU-Direct DPD 可减少每令牌尾部延迟，提高吞吐量，并允许您独立扩展预填和解码容量。除了 DPD 之外，我们在此版本中修复了其他错误。

主要特点

分解式预填和解码 (DPD)

在 InferenceEndpointConfig CRD 中添加了一个支持分解推理的新pdSpec字段。设置后pdSpec，操作员会配置单独的预填器和解码器盒，通过 DPD 路由器将它们连接在一起，然后使用 LmCache 通过 NIXL 和 EFA 和 RDMA 在 EFA 之间传输 KV 缓存。 GPU-Direct示例可配置字段包括（更多配置可以查看用户指南）：
- routingThreshold— Token-length 阈值，超过该阈值的请求将使用分解路径。低于阈值时，请求会绕过预填器并直接进入解码器。
- prefillSpec.args和 decodingSpec.args — Per-role vLLM 标志在启动worker.args时合并到。
- prefillSpec.replicas以及 decodingSpec.replicas — 独立扩展预填和解码容量，以匹配工作负载的输入和输出长度分布。
先决条件
- 要部署 DPD 终端节点，您的集群节点必须支持 EFA 和 RDMA 读写，并且位于同一可用区内，以便进行高带宽节点到节点的通信。
- 推荐的实例系列：ml.p5.48xlarge、ml.p5e.48xlarge、ml.p5en.48xlarge、ml.p6-b200.48xlarge、ml.p6-b300.48xlarge。

错误修复

x86 节点上的操作员调度 — 操作员部署现在仅用于在 amd64 Linux 节点上nodeAffinity进行调度。
我们提供了其他次要修复和安全补丁。

升级到 v3.2

头盔升级：

如果您已经通过 Helm 安装了推理运算符，请使用以下命令进行升级：


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.2

# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

EKS Add-on 升级：

如果您将推理运算符安装为 EKS Add-on，请升级到最新版本：


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.3.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

SageMaker HyperPod 推理发行说明：v3.1.2

发布日期：2026 年 5 月 6 日

摘要

Inference Operator v3.1.2 引入了用于记录端点流量的推理数据采集、用于直接部署模型的 HuggingFace 集线器集成、用于自定义域的 Route 53 DNS 管理、用于减少冷启动延迟的本地 NVMe 模型部署以及支持 IRSA 的自定义服务帐户。

新功能

推理数据捕获 — 记录三个捕获点的输入和输出： SageMaker AI 端点、负载均衡器（ALB 访问日志）和模型 pod。在 CRD dataCapture 中启用任意组合。请参阅用于推断的数据采集 HyperPod。
HuggingFace 模型来源 — 直接从 HuggingFace Hub 部署模型，无需预先部署到 S3 或 FSx。支持门控模型通过tokenSecretRef、版本固定方式commitSHA和令牌隔离。兼容 vlLM、TGI 和 sgLang 运行时。请参阅使用 kubectl 部署来自亚马逊 S3、亚马逊 FSx 或 Hugging Face Hub 的模型。
Route 53 DNS 管理 — 通过自动创建和管理自定义域名的 DNS 记录dnsConfig。请参阅用于 HyperPod 推理的自定义证书和 Route 53 DNS 管理。
本地 NVMe 模型部署 — 通过节点本地 NVMe 存储加载模型权重，modelSourceType: kubernetesVolume以减少冷启动延迟。支持回退到 S3。请参阅使用 kubectl 从本地 NVMe 存储中部署模型。
自定义服务帐户 — ServiceAccounts 通过向推理窗格分配支持 IRSA 的自定义帐户。spec.kubernetes.serviceAccountName

错误修复

标签传播 — 开 User-defined 启的标签InferenceEndpointConfig现在可以正确传播到 SageMakerEndpointRegistration CRD 和下游 SageMaker AI 资源。以前，在创建或更新端点注册期间不会传递标签。
自动缩放副本保存-修复了更新InferenceEndpointConfig或 JumpStartModel CR 会将副本计数重置为规格值，从而覆盖当前 HPA/KEDA-managed 副本数量的问题。现在，操作员会在 CR 更新期间保留活动副本数。
自动缩放 CRD 验证 — 修复了prometheusTrigger.serverAddress验证正则表达式错误地要求尾随路径分段，当 KEDA 附加到 AMP 工作空间网址时会导致 404 错误。/api/v1/query
证书轮换-修复了操作员面板重启后自定义证书轮换不会传播到 ALB 的问题。

升级到 v3.1.2

头盔升级：

如果您已经通过 Helm 安装了推理运算符，请使用以下命令进行升级：


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

EKS Add-on 升级：

如果您将推理运算符安装为 EKS Add-on，请升级到最新版本。

首先，检查您的插件配置中hyperpodClusterArn是否已有：


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .

hyperpodClusterArn如果输出中存在，请运行以下命令进行升级：


aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

如果hyperpodClusterArn不存在，请获取当前配置，添加并升级：


HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION

等待插件激活后再部署模型。

SageMaker HyperPod 推理发行说明：v3.1

发布日期：2026 年 4 月 3 日

摘要

推理运算符 v3.1 引入了自定义 Kubernetes 容器配置、自定义证书支持和每个 Pod 的请求限制。

主要特点

自定义 Kubernetes Pod 配置 — 在 InferenceEndpointConfig CRD 中添加了一个新kubernetes字段，允许用户自定义推理容器配置：
- 自定义初始化容器-在推理服务器启动之前运行用户定义的初始化容器（例如，缓存预热、GDS 设置）。Init 容器是在操作员的预取容器之后注入的。
- 自定义卷 — 向 pod 规范中添加其他卷（emptyDirhostPathconfigMap、、等），初始化容器可以通过volumeMounts引用这些卷。
- 自定义调度器名称 — 为容器放置指定自定义 Kubernetes 调度器。
自定义证书 — 使用您自己的 ACM 证书作为推理端点，而不是操作员生成的自签名证书（通过配置）。customCertificateConfig支持公开信任的 ACM 证书、 AWS 私有 CA 证书和从外部 CA 导入的证书。操作员监控证书运行状况并支持自动续订检测。
请求限制 — 通过下方的新RequestLimits配置控制每个 pod 的请求处理Worker，其中包含以下可配置字段：
- maxConcurrentRequests— 每个 Pod 的最大并发飞行中请求数。
- maxQueueSize— 在达到并发限制时排队的请求，然后才被拒绝。
- overflowStatusCode— 超过限制时返回的 HTTP 状态码（默认值：429）。

有关包括先决条件和升级说明在内的详细信息，请参阅以下部分。

先决条件

要使用自定义证书功能，请向您的推理运算符执行角色添加以下权限：


{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}

升级到 v3.1

如果您已经通过 Helm 安装了推理运算符，请使用以下命令进行升级：


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

SageMaker HyperPod 推理发行说明：v3.0

发布日期：2026 年 2 月 23 日

摘要

Inference Operator 3.0 引入了 EKS Add-on 集成以简化生命周期管理，引入了 Node Affinity 支持精细调度控制，并改进了资源标记。可以使用提供的迁移脚本将现有 Helm-based 安装迁移到 E Add-on KS。升级之前，请使用新的标记权限更新您的推理运算符执行角色。

主要特点

EKS Add-on 集成 — Enterprise-grade 生命周期管理，简化安装体验
Node Affinity — 精细的调度控制，用于排除竞价型实例、首选可用区或使用自定义标签定位节点

有关包括先决条件、升级说明和迁移指南在内的详细信息，请参阅以下部分。

先决条件

在将 Helm 版本升级到 3.0 之前，客户应为其推理运算符执行角色添加额外的标记权限。作为改善资源标记和安全性的一部分，推理运算符现在可以标记 ALB、S3 和 ACM 资源。此增强功能需要具有推理运算符执行角色的额外权限。向您的推理运算符执行角色添加以下权限：


{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}

升级到 v3.0

如果您已经通过 Helm 安装了推理运算符，请使用以下命令进行升级：


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

掌舵到 EKS Add-on 迁移

如果在 3.0 版本之前通过 Helm 安装推理运算符，我们建议迁移 Add-on 到 EKS，以便及时更新将为推理运算符发布的新功能。此脚本将 SageMaker HyperPod 推理运算符从 Helm-based 安装迁移到 EKS Add-on 安装。

概述：该脚本将集群名称和区域作为参数，检索现有的 Helm 安装配置，然后迁移到 EKS 部署。 Add-on 它为推理操作员、ALB 控制器和 KEDA 操作员创建了新的 IAM 角色。

在迁移推理运算符之前，该脚本会确保存在所需的依赖关系（S3 CSI 驱动程序、FSx CSI 驱动程序、证书管理器和指标服务器）。如果它们不存在，它会将它们部署为 Add-on。

推理运算符 Add-on 迁移完成后，脚本还会迁移 S3、FSx 和其他依赖项（ALB、KEDA、证书管理器、指标服务器），前提是它们最初是通过推理运算符 Helm 图表安装的。使用 --skip-dependencies-migration S3 CSI 驱动程序、FSx CSI 驱动程序、证书管理器和指标服务器可以跳过此步骤。请注意，ALB 和 KEDA 作为推理运算符的一部分安装 Add-on 在与推理运算符相同的命名空间中，并将作为推理运算符的一部分进行迁移。 Add-on

重要

在迁移过程中，请勿部署新模型，因为在迁移完成之前不会部署新模型。推理运算符 Add-on 处于 ACTIVE 状态后，就可以部署新模型了。迁移时间通常需要 15 到 20 分钟，如果当前只部署了几个模型，则迁移可以在 30 分钟内完成。

迁移先决条件：

AWS CLI 使用适当的凭据进行配置
kubectl 配置为可以访问你的 EKS 集群
头盔已安装
hypod-推理运算符的现有Helm安装

注意

已在运行的端点在迁移过程中不会中断。在整个迁移过程中，现有端点将继续为流量提供服务，而不会中断。

获取迁移脚本：


git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration

用法：


./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)

选项：

--cluster-name NAME— EKS 集群名称（必填）
--region REGION— AWS 区域（必填）
--helm-namespace NAMESPACE— 安装了 Helm 图表的命名空间（默认：kube-system）（可选）
--s3-mountpoint-role-arn ARN— S3 Mountpoint CSI 驱动程序 IAM 角色 ARN（可选）
--fsx-role-arn ARN— FSx CSI 驱动程序 IAM 角色 ARN（可选）
--auto-approve— 如果启用了此标志，则跳过确认提示。 step-by-step和auto-approve是互斥的，如果--auto-approve给出，则不指定--step-by-step（可选）
--step-by-step— 在每个主要步骤之后暂停以进行复习。如果已经添加，--auto-approve则不应提及（可选）
--skip-dependencies-migration— 跳过将 Helm-installed 依赖关系迁移到 Add-on。因为依赖关系不是通过 Inference Operator Helm 图表安装的，或者如果你想单独管理它们。（可选）

示例：

基本迁移（迁移依赖关系）：


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1

Auto-approve 不带提示：


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve

跳过 FSx、S3 挂载点、证书管理器和指标服务器的依赖迁移：


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration

提供现有 S3 和 FSx 的 IAM 角色：


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Backup 位置：

备份存储在 /tmp/hyperpod-migration-backup-<timestamp>/

备份可实现安全的迁移和恢复：

失败时回滚 — 如果迁移失败，脚本可以使用备份的配置自动将集群恢复到迁移前的状态
审计跟踪 — 提供迁移前存在内容的完整记录，以进行故障排除和合规性
配置参考-允许您比较迁移前和迁移后的配置
手动恢复-如果需要，您可以手动检查并恢复备份目录中的特定资源

回滚：

如果迁移失败，脚本会提示用户进行确认，然后再启动回滚以恢复先前的状态。

SageMaker HyperPod 推理发行说明：v2.3

新增功能

此版本在自定义资源定义 (CRD) 中引入了新的可选字段，以增强部署配置的灵活性。

功能

多实例类型
- 增强的部署可靠性 — 支持多实例类型配置，当首选选项容量不足时，可自动故障转移到备用实例类型
- 智能资源调度 — 使用 Kubernetes 节点亲和性来确定实例类型的优先级，同时即使首选资源不可用，也能保证部署
- 优化成本和性能 — 保持您的实例类型首选项，防止在集群波动期间出现与容量相关的故障

错误修复

规范invocationEndpoint中对字段的更改现在InferenceEndpointConfig将生效：

如果该invocationEndpoint字段已修补或更新，则依赖资源（例如、Load Balancer 和 E SageMaker ndpoint）将通过标准化进行更新。Ingress SageMakerEndpointRegistration
invocationEndpoint提供的值将按原样存储在InferenceEndpointConfig规范本身中。当此值用于创建 Load Balancer 和（如果启用）E SageMaker ndpoint 时，它将被标准化为有一个前导正斜杠。
- v1/chat/completions将标准化为Ingress、AWS L /v1/chat/completions oad Balancer 和 SageMaker 终端节点。对于SageMakerEndpointRegistration，它将在其规格中显示为v1/chat/completions。
- ///invoke将标准化为Ingress、AWS L /invoke oad Balancer 和 SageMaker 终端节点。对于SageMakerEndpointRegistration，它将在其规格中显示为invoke。

安装头盔：

关注：https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

如果你只专注于安装推理运算符，那么在第 1 步之后，也就是说Set Up Your Helm Environment，就这样做cd HyperPodHelmChart/charts/inference-operator。由于您位于推理运算符图表目录中，因此在命令中，无论您看到helm_chart/HyperPodHelmChart什么，都要替.换为。

如果已安装，请将 Operator 升级到 v2.3：


cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

KV 缓存和智能路由

集群事件参考