View a markdown version of this page

Amazon SageMaker HyperPod Inference 发行说明 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker HyperPod Inference 发行说明

本主题涵盖了跟踪 Amazon SageMaker HyperPod Inference 的更新、修复和新功能的发行说明。 SageMaker HyperPod 推理使您能够以企业级的可靠性在 HyperPod 集群上部署和扩展机器学习模型。有关 Amazon SageMaker HyperPod 平台的一般版本、更新和改进,请参阅亚马逊 SageMaker HyperPod 发行说明

有关 SageMaker HyperPod 推理功能和部署选项的信息,请参阅在亚马逊上部署模型 SageMaker HyperPod

SageMaker HyperPod 推理发行说明:v3.1.2

发布日期:2026 年 5 月 6 日

摘要

Inference Operator v3.1.2 引入了用于记录端点流量的推理数据采集、用于直接部署模型的 HuggingFace 集线器集成、用于自定义域的 Route 53 DNS 管理、用于减少冷启动延迟的本地 NVMe 模型部署以及支持 IRSA 的自定义服务帐户。

新功能

错误修复

  • 标签传播 — 开 User-defined 启的标签InferenceEndpointConfig现在可以正确传播到 SageMakerEndpointRegistration CRD 和下游 SageMaker AI 资源。以前,在创建或更新端点注册期间不会传递标签。

  • 自动缩放副本保存-修复了更新InferenceEndpointConfigJumpStartModel CR 会将副本计数重置为规格值,从而覆盖当前 HPA/KEDA-managed 副本数量的问题。现在,操作员会在 CR 更新期间保留活动副本数。

  • 自动缩放 CRD 验证 — 修复了prometheusTrigger.serverAddress验证正则表达式错误地要求尾随路径分段,当 KEDA 附加到 AMP 工作空间网址时会导致 404 错误。/api/v1/query

  • 证书轮换-修复了操作员面板重启后自定义证书轮换不会传播到 ALB 的问题。

升级到 v3.1.2

头盔升级:

如果您已经通过 Helm 安装了推理运算符,请使用以下命令进行升级:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

EKS Add-on 升级:

如果您将推理运算符安装为 EKS Add-on,请升级到最新版本。

首先,检查您的插件配置中hyperpodClusterArn是否已有:

CLUSTER=EKS_CLUSTER_NAME REGION=REGION aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text | jq .

hyperpodClusterArn如果输出中存在,请运行以下命令进行升级:

aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --resolve-conflicts OVERWRITE \ --region $REGION

如果hyperpodClusterArn不存在,请获取当前配置,添加并升级:

HP_ARN=HYPERPOD_CLUSTER_ARN CURRENT_CONFIG=$(aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text) # Add hyperpodClusterArn to the configuration NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \ '. + {hyperpodClusterArn: $arn}') aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --configuration-values "$NEW_CONFIG" \ --resolve-conflicts OVERWRITE \ --region $REGION

等待插件激活后再部署模型。

SageMaker HyperPod 推理发行说明:v3.1

发布日期:2026 年 4 月 3 日

摘要

推理运算符 v3.1 引入了自定义 Kubernetes 容器配置、自定义证书支持和每个 Pod 的请求限制。

主要特点

  • 自定义 Kubernetes Pod 配置 — 在 InferenceEndpointConfig CRD 中添加了一个新kubernetes字段,允许用户自定义推理容器配置:

    • 自定义初始化容器-在推理服务器启动之前运行用户定义的初始化容器(例如,缓存预热、GDS 设置)。Init 容器是在操作员的预取容器之后注入的。

    • 自定义卷 — 向 pod 规范中添加其他卷(emptyDirhostPathconfigMap、、等),初始化容器可以通过volumeMounts引用这些卷。

    • 自定义调度器名称 — 为容器放置指定自定义 Kubernetes 调度器。

  • 自定义证书 — 使用您自己的 ACM 证书作为推理端点,而不是操作员生成的自签名证书(通过配置)。customCertificateConfig支持公开信任的 ACM 证书、 AWS 私有 CA 证书和从外部 CA 导入的证书。操作员监控证书运行状况并支持自动续订检测。

  • 请求限制 — 通过下方的新RequestLimits配置控制每个 pod 的请求处理Worker,其中包含以下可配置字段:

    • maxConcurrentRequests— 每个 Pod 的最大并发飞行中请求数。

    • maxQueueSize— 在达到并发限制时排队的请求,然后才被拒绝。

    • overflowStatusCode— 超过限制时返回的 HTTP 状态码(默认值:429)。

有关包括先决条件和升级说明在内的详细信息,请参阅以下部分。

先决条件

要使用自定义证书功能,请向您的推理运算符执行角色添加以下权限:

{ "Sid": "ACMCertificateAccess", "Effect": "Allow", "Action": [ "acm:DescribeCertificate", "acm:GetCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*" }

升级到 v3.1

如果您已经通过 Helm 安装了推理运算符,请使用以下命令进行升级:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

SageMaker HyperPod 推理发行说明:v3.0

发布日期:2026 年 2 月 23 日

摘要

Inference Operator 3.0 引入了 EKS Add-on 集成以简化生命周期管理,引入了 Node Affinity 支持精细调度控制,并改进了资源标记。可以使用提供的迁移脚本将现有 Helm-based 安装迁移到 E Add-on KS。升级之前,请使用新的标记权限更新您的推理运算符执行角色。

主要特点

  • EKS Add-on 集成 — Enterprise-grade 生命周期管理,简化安装体验

  • Node Affinity — 精细的调度控制,用于排除竞价型实例、首选可用区或使用自定义标签定位节点

有关包括先决条件、升级说明和迁移指南在内的详细信息,请参阅以下部分。

先决条件

在将 Helm 版本升级到 3.0 之前,客户应为其推理运算符执行角色添加额外的标记权限。作为改善资源标记和安全性的一部分,推理运算符现在可以标记 ALB、S3 和 ACM 资源。此增强功能需要具有推理运算符执行角色的额外权限。向您的推理运算符执行角色添加以下权限:

{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }

升级到 v3.0

如果您已经通过 Helm 安装了推理运算符,请使用以下命令进行升级:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

掌舵到 EKS Add-on 迁移

如果在 3.0 版本之前通过 Helm 安装推理运算符,我们建议迁移 Add-on 到 EKS,以便及时更新将为推理运算符发布的新功能。此脚本将 SageMaker HyperPod 推理运算符从 Helm-based 安装迁移到 EKS Add-on 安装。

概述:该脚本将集群名称和区域作为参数,检索现有的 Helm 安装配置,然后迁移到 EKS 部署。 Add-on 它为推理操作员、ALB 控制器和 KEDA 操作员创建了新的 IAM 角色。

在迁移推理运算符之前,该脚本会确保存在所需的依赖关系(S3 CSI 驱动程序、FSx CSI 驱动程序、证书管理器和指标服务器)。如果它们不存在,它会将它们部署为 Add-on。

推理运算符 Add-on 迁移完成后,脚本还会迁移 S3、FSx 和其他依赖项(ALB、KEDA、证书管理器、指标服务器),前提是它们最初是通过推理运算符 Helm 图表安装的。使用 --skip-dependencies-migration S3 CSI 驱动程序、FSx CSI 驱动程序、证书管理器和指标服务器可以跳过此步骤。请注意,ALB 和 KEDA 作为推理运算符的一部分安装 Add-on 在与推理运算符相同的命名空间中,并将作为推理运算符的一部分进行迁移。 Add-on

重要

在迁移过程中,请勿部署新模型,因为在迁移完成之前不会部署新模型。推理运算符 Add-on 处于 ACTIVE 状态后,就可以部署新模型了。迁移时间通常需要 15 到 20 分钟,如果当前只部署了几个模型,则迁移可以在 30 分钟内完成。

迁移先决条件:

  • AWS CLI 使用适当的凭据进行配置

  • kubectl 配置为可以访问你的 EKS 集群

  • 头盔已安装

  • hypod-推理运算符的现有Helm安装

注意

已在运行的端点在迁移过程中不会中断。在整个迁移过程中,现有端点将继续为流量提供服务,而不会中断。

获取迁移脚本:

git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration

用法:

./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)

选项:

  • --cluster-name NAME— EKS 集群名称(必填)

  • --region REGION— AWS 区域(必填)

  • --helm-namespace NAMESPACE— 安装了 Helm 图表的命名空间(默认:kube-system)(可选)

  • --s3-mountpoint-role-arn ARN— S3 Mountpoint CSI 驱动程序 IAM 角色 ARN(可选)

  • --fsx-role-arn ARN— FSx CSI 驱动程序 IAM 角色 ARN(可选)

  • --auto-approve— 如果启用了此标志,则跳过确认提示。 step-by-stepauto-approve是互斥的,如果--auto-approve给出,则不指定--step-by-step(可选)

  • --step-by-step— 在每个主要步骤之后暂停以进行复习。如果已经添加,--auto-approve则不应提及(可选)

  • --skip-dependencies-migration— 跳过将 Helm-installed 依赖关系迁移到 Add-on。因为依赖关系不是通过 Inference Operator Helm 图表安装的,或者如果你想单独管理它们。 (可选)

示例:

基本迁移(迁移依赖关系):

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1

Auto-approve 不带提示:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve

跳过 FSx、S3 挂载点、证书管理器和指标服务器的依赖迁移:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration

提供现有 S3 和 FSx 的 IAM 角色:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Backup 位置:

备份存储在 /tmp/hyperpod-migration-backup-<timestamp>/

备份可实现安全的迁移和恢复:

  • 失败时回滚 — 如果迁移失败,脚本可以使用备份的配置自动将集群恢复到迁移前的状态

  • 审计跟踪 — 提供迁移前存在内容的完整记录,以进行故障排除和合规性

  • 配置参考-允许您比较迁移前和迁移后的配置

  • 手动恢复-如果需要,您可以手动检查并恢复备份目录中的特定资源

回滚:

如果迁移失败,脚本会提示用户进行确认,然后再启动回滚以恢复先前的状态。

SageMaker HyperPod 推理发行说明:v2.3

新增功能

此版本在自定义资源定义 (CRD) 中引入了新的可选字段,以增强部署配置的灵活性。

功能

  • 多实例类型

    • 增强的部署可靠性 — 支持多实例类型配置,当首选选项容量不足时,可自动故障转移到备用实例类型

    • 智能资源调度 — 使用 Kubernetes 节点亲和性来确定实例类型的优先级,同时即使首选资源不可用,也能保证部署

    • 优化成本和性能 — 保持您的实例类型首选项,防止在集群波动期间出现与容量相关的故障

错误修复

规范invocationEndpoint中对字段的更改现在InferenceEndpointConfig将生效:

  • 如果该invocationEndpoint字段已修补或更新,则依赖资源(例如、Load Balancer 和 E SageMaker ndpoint)将通过标准化进行更新。Ingress SageMakerEndpointRegistration

  • invocationEndpoint提供的值将按原样存储在InferenceEndpointConfig规范本身中。当此值用于创建 Load Balancer 和(如果启用)E SageMaker ndpoint 时,它将被标准化为有一个前导正斜杠。

    • v1/chat/completions将标准化为Ingress、AWS L /v1/chat/completions oad Balancer 和 SageMaker 终端节点。对于SageMakerEndpointRegistration,它将在其规格中显示为v1/chat/completions

    • ///invoke将标准化为Ingress、AWS L /invoke oad Balancer 和 SageMaker 终端节点。对于SageMakerEndpointRegistration,它将在其规格中显示为invoke

安装头盔:

关注:https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

如果你只专注于安装推理运算符,那么在第 1 步之后,也就是说Set Up Your Helm Environment,就这样做cd HyperPodHelmChart/charts/inference-operator。由于您位于推理运算符图表目录中,因此在命令中,无论您看到helm_chart/HyperPodHelmChart什么,都要替.换为。

如果已安装,请将 Operator 升级到 v2.3:

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3