Notas de lançamento do Amazon SageMaker HyperPod Inference

Este tópico aborda as notas de lançamento que rastreiam atualizações, correções e novos recursos do Amazon SageMaker HyperPod Inference. SageMaker HyperPod A inferência permite que você implante e escale modelos de aprendizado de máquina em seus HyperPod clusters com confiabilidade de nível corporativo. Para ver os lançamentos, atualizações e melhorias gerais da SageMaker HyperPod plataforma Amazon, consulteNotas SageMaker HyperPod de lançamento da Amazon.

Para obter informações sobre recursos de SageMaker HyperPod inferência e opções de implantação, consulteImplantação de modelos na Amazon SageMaker HyperPod.

SageMaker HyperPod Notas de lançamento do Inference: v3.2

Data de lançamento: 12 de junho de 2026

Resumo

O Inference Operator v3.2 permite que os clientes implantem LLMs de contexto longo (como o Llama 3.3 70B) com latência previsível por token sob carga simultânea. A versão apresenta o pré-preenchimento e decodificação desagregados (DPD), que separa a fase de pré-preenchimento vinculada à computação e a fase de decodificação vinculada à largura de banda da memória em pools de GPU distintos e transfere o cache de KV entre eles por EFA com RDMA. GPU-Direct O DPD reduz a latência final por token, aumenta a produtividade e permite que você escale a capacidade de pré-preenchimento e decodificação de forma independente. Além do DPD, incluímos outras correções de bugs nesta versão.

Características principais

Pré-preenchimento e decodificação desagregados (DPD)

Foi adicionado um novo pdSpec campo ao InferenceEndpointConfig CRD que permite inferência desagregada. Quando pdSpec configurado, o operador provisiona pods separados de pré-preenchimento e decodificador, os conecta por meio do roteador DPD e transfere o cache de KV entre eles usando LMCache sobre NIXL e EFA com RDMA. GPU-Direct Exemplos de campos configuráveis incluem (mais configurações podem consultar o guia do usuário):
- routingThreshold— Token-length limite acima do qual as solicitações usam o caminho desagregado. Abaixo do limite, as solicitações ignoram o pré-preenchedor e vão diretamente para o decodificador.
- prefillSpec.argse decodingSpec.args — sinalizadores Per-role vLLM mesclados na inicialização. worker.args
- prefillSpec.replicase decodingSpec.replicas — Dimensione a capacidade de pré-preenchimento e decodificação de forma independente para corresponder à distribuição do comprimento de entrada e saída de sua carga de trabalho.
Pré-requisito
- Para implantar endpoints DPD, seus nós de cluster devem suportar EFA com leitura e gravação RDMA e estar localizados na mesma zona de disponibilidade para comunicação de nó a nó de alta largura de banda.
- Famílias de instâncias recomendadas: ml.p5.48xlargeml.p5e.48xlarge,ml.p5en.48xlarge,ml.p6-b200.48xlarge,,ml.p6-b300.48xlarge.

Correções de bugs

Programação do operador em nós x86 — A implantação do operador agora é usada nodeAffinity para agendar somente em nós Linux amd64.
Incluímos outras correções menores e de segurança.

Atualize para a v3.2

Atualização do leme:

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.2

# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Add-on Atualização do EKS:

Se você instalou o Operador de Inferência como um EKS Add-on, atualize para a versão mais recente:


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.3.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

SageMaker HyperPod Notas de lançamento do Inference: v3.1.2

Data de lançamento: 6 de maio de 2026

Resumo

O Inference Operator v3.1.2 apresenta a captura de dados de inferência para registrar o tráfego do endpoint, a integração do HuggingFace Hub para implantação direta do modelo, o gerenciamento de DNS do Route 53 para domínios personalizados, a implantação do modelo NVMe local para reduzir a latência de inicialização a frio e contas de serviço personalizadas com suporte ao IRSA.

Novos atributos

Captura de dados de inferência — registre entradas e saídas em três pontos de captura: endpoint de SageMaker IA, balanceador de carga (registros de acesso do ALB) e pod de modelos. Habilite qualquer combinação via dataCapture seu CRD. Consulte Captura de dados para inferência sobre HyperPod.
HuggingFace Fonte do modelo — implante modelos diretamente do HuggingFace Hub sem pré-escalar para S3 ou FSx. Suporta modelos fechados por meio detokenSecretRef, fixação de revisões e commitSHA isolamento de tokens. Compatível com os tempos de execução vLLM, TGI e SGlang. Consulte Implante modelos do Amazon S3, Amazon FSx ou Hugging Face Hub usando kubectl.
Gerenciamento de DNS do Route 53 — Crie e gerencie automaticamente registros DNS para domínios personalizados via. dnsConfig Consulte Certificados personalizados e gerenciamento de DNS do Route 53 para HyperPod inferência.
Implantação do modelo NVMe local — carregue os pesos do modelo do armazenamento NVMe local do nó para reduzir a latência de inicialização a frio. modelSourceType: kubernetesVolume Suporta fallback para S3. Consulte Implemente modelos do armazenamento NVMe local usando kubectl.
Contas de serviço personalizadas — atribua suporte personalizado ServiceAccounts com IRSA aos pods de inferência via. spec.kubernetes.serviceAccountName

Correções de bugs

Propagação de User-defined tags — as tags ativadas InferenceEndpointConfig agora se propagam corretamente para o SageMakerEndpointRegistration CRD e os recursos de IA SageMaker downstream. Anteriormente, as tags não eram passadas durante a criação ou as atualizações do registro do endpoint.
Preservação de réplicas com escalonamento automático — Corrigido um problema em que a atualização de um InferenceEndpointConfig ou JumpStartModel CR redefinia a contagem de réplicas para o valor especificado, substituindo a contagem de réplicas atual. HPA/KEDA-managed O operador agora preserva a contagem ativa de réplicas durante as atualizações do CR.
Validação de CRD com escalonamento automático — Corrigiu o regex de prometheusTrigger.serverAddress validação que exigia incorretamente um segmento de caminho final, causando erros 404 quando o KEDA era anexado ao URL do espaço de trabalho AMP. /api/v1/query
Rotação de certificados — Corrigida a rotação personalizada de certificados que não se propagava para o ALB após a reinicialização do pod do operador.

Atualize para a v3.1.2

Atualização do leme:

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Add-on Atualização do EKS:

Se você instalou o Operador de Inferência como um EKS Add-on, atualize para a versão mais recente.

Primeiro, verifique se já hyperpodClusterArn está na configuração do complemento:


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .

Se hyperpodClusterArn estiver presente na saída, execute o seguinte comando para atualizar:


aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

Se não hyperpodClusterArn estiver presente, busque a configuração atual, adicione-a e atualize:


HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION

Aguarde até que o complemento fique ativo antes de implantar os modelos.

SageMaker HyperPod Notas de lançamento do Inference: v3.1

Data de lançamento: 3 de abril de 2026

Resumo

O Inference Operator v3.1 apresenta configuração personalizada de pod do Kubernetes, suporte personalizado a certificados e limites de solicitação por pod.

Características principais

Configuração personalizada do pod Kubernetes — Foi adicionado um novo kubernetes campo ao InferenceEndpointConfig CRD que permite aos usuários personalizar as configurações do pod de inferência:
- Contêineres de inicialização personalizados — Execute contêineres de inicialização definidos pelo usuário antes que o servidor de inferência seja iniciado (por exemplo, aquecimento de cache, configuração do GDS). Os contêineres iniciais são injetados após o contêiner de pré-busca do operador.
- Volumes personalizados — adicione volumes adicionais (emptyDir,, hostPathconfigMap, etc.) à especificação do pod, que podem ser referenciados pelos contêineres de inicialização por meio de. volumeMounts
- Nome do agendador personalizado — especifique um agendador Kubernetes personalizado para a colocação do pod.
Certificados personalizados — Use seus próprios certificados ACM para endpoints de inferência em vez de certificados autoassinados gerados pelo operador, configurados via. customCertificateConfig Oferece suporte a certificados ACM publicamente confiáveis, certificados de CA AWS privada e certificados importados de CAs externas. O operador monitora a integridade do certificado e oferece suporte à detecção automática de renovação.
Limites de solicitação — Controle o tratamento de solicitações por pod por meio da nova RequestLimits configuração abaixoWorker, com os seguintes campos configuráveis:
- maxConcurrentRequests— Máximo de solicitações simultâneas em voo por pod.
- maxQueueSize— Solicitações de fila quando o limite de simultaneidade é atingido antes da rejeição.
- overflowStatusCode— Código de status HTTP retornado quando os limites são excedidos (padrão: 429).

Para obter informações detalhadas, incluindo pré-requisitos e instruções de atualização, consulte as seções abaixo.

Pré-requisitos

Para usar o recurso de certificados personalizados, adicione as seguintes permissões à sua função de execução de operador de inferência:


{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}

Atualize para v3.1

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

SageMaker HyperPod Notas de lançamento do Inference: v3.0

Data de lançamento: 23 de fevereiro de 2026

Resumo

O Inference Operator 3.0 apresenta a Add-on integração EKS para gerenciamento simplificado do ciclo de vida, suporte ao Node Affinity para controle granular de agendamento e marcação aprimorada de recursos. Helm-based As instalações existentes podem ser migradas para o EKS Add-on usando o script de migração fornecido. Atualize sua função de execução do Operador de Inferência com novas permissões de marcação antes da atualização.

Características principais

Add-on Integração EKS — gerenciamento Enterprise-grade do ciclo de vida com experiência de instalação simplificada
Node Affinity — Controle granular de agendamento para excluir instâncias spot, preferir zonas de disponibilidade ou direcionar nós com rótulos personalizados

Para obter informações detalhadas, incluindo pré-requisitos, instruções de upgrade e diretrizes de migração, consulte as seções abaixo.

Pré-requisitos

Antes de atualizar a versão do Helm para 3.0, os clientes devem adicionar permissões adicionais de marcação à sua função de execução de operador de inferência. Como parte da melhoria da marcação e da segurança de recursos, o Operador de Inferência agora marca os recursos ALB, S3 e ACM. Esse aprimoramento requer permissões adicionais na função de execução do Operador de Inferência. Adicione as seguintes permissões à sua função de execução do Operador de Inferência:


{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}

Atualize para v3.0

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Migração do Helm para o EKS Add-on

Se o operador de inferência for instalado por meio do Helm antes da versão 3.0, recomendamos migrar para o EKS Add-on para obter atualizações oportunas sobre os novos recursos que serão lançados para o operador de inferência. Esse script migra o operador de SageMaker HyperPod inferência da Helm-based instalação para a instalação do EKS Add-on .

Visão geral: o script usa um nome de cluster e uma região como parâmetros, recupera a configuração de instalação existente do Helm e migra para a implantação do EKS. Add-on Ele cria novas funções do IAM para o operador de inferência, o controlador ALB e o operador KEDA.

Antes de migrar o operador de inferência, o script garante que as dependências necessárias (driver S3 CSI, driver FSx CSI, cert-manager e metrics-server) existam. Se eles não existirem, ele os implanta como Add-on.

Depois que a Add-on migração do Inference Operator for concluída, o script também migrará S3, FSx e outras dependências (ALB, KEDA, cert-manager, metrics-server) se elas tiverem sido originalmente instaladas por meio do gráfico Inference Operator Helm. Use --skip-dependencies-migration para pular esta etapa para o driver S3 CSI, o driver FSx CSI, o cert-manager e o metrics-server. Observe que o ALB e o KEDA são instalados como parte do Add-on no mesmo namespace do Operador de Inferência e serão migrados como parte do Operador de Inferência. Add-on

Importante

Durante a migração, não implante novos modelos, pois eles não serão implantados até que a migração seja concluída. Quando o operador de inferência Add-on está no estado ATIVO, novos modelos podem ser implantados. O tempo de migração normalmente leva de 15 a 20 minutos e pode ser concluído em 30 minutos se apenas alguns modelos estiverem implantados atualmente.

Pré-requisitos de migração:

AWS CLI configurado com as credenciais apropriadas
kubectl configurado com acesso ao seu cluster EKS
Capacete instalado
Instalação existente do Helm do hyperpod-inference-operator

nota

Os endpoints que já estão em execução não serão interrompidos durante o processo de migração. Os endpoints existentes continuarão a atender ao tráfego sem interrupções durante a migração.

Obtendo o script de migração:


git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration

Uso:


./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)

Opções:

--cluster-name NAME— Nome do cluster EKS (obrigatório)
--region REGION— AWS região (obrigatório)
--helm-namespace NAMESPACE— Namespace onde o gráfico Helm está instalado (padrão: kube-system) (opcional)
--s3-mountpoint-role-arn ARN— ARN da função IAM do driver CSI do S3 Mountpoint (opcional)
--fsx-role-arn ARN— ARN da função IAM do driver FSx CSI (opcional)
--auto-approve— Ignore as solicitações de confirmação se esse sinalizador estiver ativado. step-by-stepe auto-approve são mutuamente exclusivos, --auto-approve se forem fornecidos, não especifique --step-by-step (opcional)
--step-by-step— Faça uma pausa após cada etapa principal para revisão. Isso não deve ser mencionado --auto-approve se já tiver sido adicionado (opcional)
--skip-dependencies-migration— Ignore a migração de Helm-installed dependências para o. Add-on Pois as dependências NÃO foram instaladas por meio do gráfico Inference Operator Helm ou se você quiser gerenciá-las separadamente. (opcional)

Exemplos:

Migração básica (migra dependências):


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1

Auto-approve sem avisos:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve

Ignore a migração de dependências para FSx, S3 mountpoint, cert manager e Metrics server:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration

Forneça as funções S3 e FSx IAM existentes:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Local do backup:

Os backups são armazenados em /tmp/hyperpod-migration-backup-<timestamp>/

Os backups permitem migração e recuperação seguras:

Reversão em caso de falha — Se a migração falhar, o script poderá restaurar automaticamente seu cluster ao estado anterior à migração usando as configurações de backup
Trilha de auditoria — fornece um registro completo do que existia antes da migração para solução de problemas e conformidade
Referência de configuração — permite comparar as configurações de pré-migração e pós-migração
Recuperação manual — Se necessário, você pode inspecionar e restaurar manualmente recursos específicos do diretório de backup

Reversão:

Se a migração falhar, o script solicitará a confirmação do usuário antes de iniciar a reversão para restaurar o estado anterior.

SageMaker HyperPod Notas de lançamento do Inference: v2.3

O que há de novo

Esta versão apresenta novos campos opcionais nas Definições de Recursos Personalizadas (CRDs) para aprimorar a flexibilidade da configuração de implantação.

Recursos

Tipos de várias instâncias
- Confiabilidade de implantação aprimorada — suporta configurações do tipo de várias instâncias com failover automático para tipos de instância alternativos quando as opções preferenciais não têm capacidade
- Programação inteligente de recursos — usa a afinidade de nós do Kubernetes para priorizar os tipos de instância e, ao mesmo tempo, garantir a implantação mesmo quando os recursos preferenciais não estão disponíveis
- Custo e desempenho otimizados — mantém suas preferências de tipo de instância e evita falhas relacionadas à capacidade durante as flutuações do cluster

Correções de bugs

As alterações no campo invocationEndpoint na especificação do agora InferenceEndpointConfig entrarão em vigor:

Se o invocationEndpoint campo for corrigido ou atualizado, os recursos dependentes, como Load Balancer SageMaker e EndpointSageMakerEndpointRegistration, serão atualizados com a normalização. Ingress
O valor invocationEndpoint fornecido será armazenado como está na própria InferenceEndpointConfig especificação. Quando esse valor é usado para criar um Load Balancer e, se ativado, um SageMaker Endpoint, ele será normalizado para ter uma barra inicial.
- v1/chat/completionsserão normalizados /v1/chat/completions para o Ingress AWS Load Balancer e o Endpoint. SageMaker Para oSageMakerEndpointRegistration, ele será exibido em sua especificação comov1/chat/completions.
- ///invokeserão normalizados /invoke para o Ingress AWS Load Balancer e o Endpoint. SageMaker Para oSageMakerEndpointRegistration, ele será exibido em sua especificação comoinvoke.

Instalando o Helm:

Siga: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Se você está focado em instalar apenas o operador de inferência, após a etapa 1, ou sejaSet Up Your Helm Environment, façacd HyperPodHelmChart/charts/inference-operator. Como você está no próprio diretório do gráfico do operador de inferência, nos comandos, onde quer que você vejahelm_chart/HyperPodHelmChart, . substitua por.

Atualize o Operador para v2.3 caso já esteja instalado:


cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Cache KV e roteamento inteligente

Referência de eventos de cluster