View a markdown version of this page

Notas de lançamento do Amazon SageMaker HyperPod Inference - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Notas de lançamento do Amazon SageMaker HyperPod Inference

Este tópico aborda as notas de lançamento que rastreiam atualizações, correções e novos recursos do Amazon SageMaker HyperPod Inference. SageMaker HyperPod A inferência permite que você implante e escale modelos de aprendizado de máquina em seus HyperPod clusters com confiabilidade de nível corporativo. Para ver os lançamentos, atualizações e melhorias gerais da SageMaker HyperPod plataforma Amazon, consulteNotas SageMaker HyperPod de lançamento da Amazon.

Para obter informações sobre recursos de SageMaker HyperPod inferência e opções de implantação, consulteImplantação de modelos na Amazon SageMaker HyperPod.

SageMaker HyperPod Notas de lançamento do Inference: v3.1.2

Data de lançamento: 6 de maio de 2026

Resumo

O Inference Operator v3.1.2 apresenta a captura de dados de inferência para registrar o tráfego de endpoints, a integração do HuggingFace Hub para implantação direta do modelo, o gerenciamento de DNS do Route 53 para domínios personalizados, a implantação do modelo NVMe local para reduzir a latência de inicialização a frio e contas de serviço personalizadas com suporte ao IRSA.

Novos atributos

Correções de bugs

  • Propagação de User-defined tags — as tags ativadas InferenceEndpointConfig agora se propagam corretamente para o SageMakerEndpointRegistration CRD e os recursos de IA SageMaker downstream. Anteriormente, as tags não eram passadas durante a criação ou as atualizações do registro do endpoint.

  • Preservação de réplicas com escalonamento automático — Corrigido um problema em que a atualização de um InferenceEndpointConfig ou JumpStartModel CR redefinia a contagem de réplicas para o valor especificado, substituindo a contagem de réplicas atual. HPA/KEDA-managed O operador agora preserva a contagem ativa de réplicas durante as atualizações do CR.

  • Validação de CRD com escalonamento automático — Corrigiu o regex de prometheusTrigger.serverAddress validação que exigia incorretamente um segmento de caminho final, causando erros 404 quando o KEDA era anexado ao URL do espaço de trabalho AMP. /api/v1/query

  • Rotação de certificados — Corrigida a rotação personalizada de certificados que não se propagava para o ALB após a reinicialização do pod do operador.

Atualize para a v3.1.2

Atualização do leme:

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

Add-on Atualização do EKS:

Se você instalou o Operador de Inferência como um EKS Add-on, atualize para a versão mais recente.

Primeiro, verifique se já hyperpodClusterArn está na configuração do complemento:

CLUSTER=EKS_CLUSTER_NAME REGION=REGION aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text | jq .

Se hyperpodClusterArn estiver presente na saída, execute o seguinte comando para atualizar:

aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --resolve-conflicts OVERWRITE \ --region $REGION

Se não hyperpodClusterArn estiver presente, busque a configuração atual, adicione-a e atualize:

HP_ARN=HYPERPOD_CLUSTER_ARN CURRENT_CONFIG=$(aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text) # Add hyperpodClusterArn to the configuration NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \ '. + {hyperpodClusterArn: $arn}') aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --configuration-values "$NEW_CONFIG" \ --resolve-conflicts OVERWRITE \ --region $REGION

Aguarde até que o complemento fique ativo antes de implantar os modelos.

SageMaker HyperPod Notas de lançamento do Inference: v3.1

Data de lançamento: 3 de abril de 2026

Resumo

O Inference Operator v3.1 apresenta configuração personalizada de pod do Kubernetes, suporte personalizado a certificados e limites de solicitação por pod.

Características principais

  • Configuração personalizada do pod Kubernetes — Foi adicionado um novo kubernetes campo ao InferenceEndpointConfig CRD que permite aos usuários personalizar as configurações do pod de inferência:

    • Contêineres de inicialização personalizados — Execute contêineres de inicialização definidos pelo usuário antes que o servidor de inferência seja iniciado (por exemplo, aquecimento de cache, configuração do GDS). Os contêineres iniciais são injetados após o contêiner de pré-busca do operador.

    • Volumes personalizados — adicione volumes adicionais (emptyDir,, hostPathconfigMap, etc.) à especificação do pod, que podem ser referenciados pelos contêineres de inicialização por meio de. volumeMounts

    • Nome do agendador personalizado — especifique um agendador Kubernetes personalizado para a colocação do pod.

  • Certificados personalizados — Use seus próprios certificados ACM para endpoints de inferência em vez de certificados autoassinados gerados pelo operador, configurados via. customCertificateConfig Oferece suporte a certificados ACM publicamente confiáveis, certificados de CA AWS privada e certificados importados de CAs externas. O operador monitora a integridade do certificado e oferece suporte à detecção automática de renovação.

  • Limites de solicitação — Controle o tratamento de solicitações por pod por meio da nova RequestLimits configuração abaixoWorker, com os seguintes campos configuráveis:

    • maxConcurrentRequests— Máximo de solicitações simultâneas em voo por pod.

    • maxQueueSize— Solicitações de fila quando o limite de simultaneidade é atingido antes da rejeição.

    • overflowStatusCode— Código de status HTTP retornado quando os limites são excedidos (padrão: 429).

Para obter informações detalhadas, incluindo pré-requisitos e instruções de atualização, consulte as seções abaixo.

Pré-requisitos

Para usar o recurso de certificados personalizados, adicione as seguintes permissões à sua função de execução de operador de inferência:

{ "Sid": "ACMCertificateAccess", "Effect": "Allow", "Action": [ "acm:DescribeCertificate", "acm:GetCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*" }

Atualize para v3.1

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

SageMaker HyperPod Notas de lançamento do Inference: v3.0

Data de lançamento: 23 de fevereiro de 2026

Resumo

O Inference Operator 3.0 apresenta a Add-on integração EKS para gerenciamento simplificado do ciclo de vida, suporte ao Node Affinity para controle granular de agendamento e marcação aprimorada de recursos. Helm-based As instalações existentes podem ser migradas para o EKS Add-on usando o script de migração fornecido. Atualize sua função de execução do Operador de Inferência com novas permissões de marcação antes da atualização.

Características principais

  • Add-on Integração EKS — gerenciamento Enterprise-grade do ciclo de vida com experiência de instalação simplificada

  • Node Affinity — Controle granular de agendamento para excluir instâncias spot, preferir zonas de disponibilidade ou direcionar nós com rótulos personalizados

Para obter informações detalhadas, incluindo pré-requisitos, instruções de upgrade e diretrizes de migração, consulte as seções abaixo.

Pré-requisitos

Antes de atualizar a versão do Helm para 3.0, os clientes devem adicionar permissões adicionais de marcação à sua função de execução de operador de inferência. Como parte da melhoria da marcação e da segurança de recursos, o Operador de Inferência agora marca os recursos ALB, S3 e ACM. Esse aprimoramento requer permissões adicionais na função de execução do Operador de Inferência. Adicione as seguintes permissões à sua função de execução do Operador de Inferência:

{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }

Atualize para v3.0

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:

helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'

Migração do Helm para o EKS Add-on

Se o operador de inferência for instalado por meio do Helm antes da versão 3.0, recomendamos migrar para o EKS Add-on para obter atualizações oportunas sobre os novos recursos que serão lançados para o operador de inferência. Esse script migra o operador de SageMaker HyperPod inferência da Helm-based instalação para a instalação do EKS Add-on .

Visão geral: o script usa um nome de cluster e uma região como parâmetros, recupera a configuração de instalação existente do Helm e migra para a implantação do EKS. Add-on Ele cria novas funções do IAM para o operador de inferência, o controlador ALB e o operador KEDA.

Antes de migrar o operador de inferência, o script garante que as dependências necessárias (driver S3 CSI, driver FSx CSI, cert-manager e metrics-server) existam. Se eles não existirem, ele os implanta como Add-on.

Depois que a Add-on migração do Inference Operator for concluída, o script também migrará S3, FSx e outras dependências (ALB, KEDA, cert-manager, metrics-server) se elas tiverem sido originalmente instaladas por meio do gráfico Inference Operator Helm. Use --skip-dependencies-migration para pular esta etapa para o driver S3 CSI, o driver FSx CSI, o cert-manager e o metrics-server. Observe que o ALB e o KEDA são instalados como parte do Add-on no mesmo namespace do Operador de Inferência e serão migrados como parte do Operador de Inferência. Add-on

Importante

Durante a migração, não implante novos modelos, pois eles não serão implantados até que a migração seja concluída. Quando o operador de inferência Add-on está no estado ATIVO, novos modelos podem ser implantados. O tempo de migração normalmente leva de 15 a 20 minutos e pode ser concluído em 30 minutos se apenas alguns modelos estiverem implantados atualmente.

Pré-requisitos de migração:

  • AWS CLI configurado com as credenciais apropriadas

  • kubectl configurado com acesso ao seu cluster EKS

  • Capacete instalado

  • Instalação existente do Helm do hyperpod-inference-operator

nota

Os endpoints que já estão em execução não serão interrompidos durante o processo de migração. Os endpoints existentes continuarão a atender ao tráfego sem interrupções durante a migração.

Obtendo o script de migração:

git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration

Uso:

./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)

Opções:

  • --cluster-name NAME— Nome do cluster EKS (obrigatório)

  • --region REGION— AWS região (obrigatório)

  • --helm-namespace NAMESPACE— Namespace onde o gráfico Helm está instalado (padrão: kube-system) (opcional)

  • --s3-mountpoint-role-arn ARN— ARN da função IAM do driver CSI do S3 Mountpoint (opcional)

  • --fsx-role-arn ARN— ARN da função IAM do driver FSx CSI (opcional)

  • --auto-approve— Ignore as solicitações de confirmação se esse sinalizador estiver ativado. step-by-stepe auto-approve são mutuamente exclusivos, --auto-approve se forem fornecidos, não especifique --step-by-step (opcional)

  • --step-by-step— Faça uma pausa após cada etapa principal para revisão. Isso não deve ser mencionado --auto-approve se já tiver sido adicionado (opcional)

  • --skip-dependencies-migration— Ignore a migração de Helm-installed dependências para o. Add-on Pois as dependências NÃO foram instaladas por meio do gráfico Inference Operator Helm ou se você quiser gerenciá-las separadamente. (opcional)

Exemplos:

Migração básica (migra dependências):

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1

Auto-approve sem avisos:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve

Ignore a migração de dependências para FSx, S3 mountpoint, cert manager e Metrics server:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration

Forneça as funções S3 e FSx IAM existentes:

./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Local do backup:

Os backups são armazenados em /tmp/hyperpod-migration-backup-<timestamp>/

Os backups permitem migração e recuperação seguras:

  • Reversão em caso de falha — Se a migração falhar, o script poderá restaurar automaticamente seu cluster ao estado anterior à migração usando as configurações de backup

  • Trilha de auditoria — fornece um registro completo do que existia antes da migração para solução de problemas e conformidade

  • Referência de configuração — permite comparar configurações de pré-migração e pós-migração

  • Recuperação manual — Se necessário, você pode inspecionar e restaurar manualmente recursos específicos do diretório de backup

Reversão:

Se a migração falhar, o script solicitará a confirmação do usuário antes de iniciar a reversão para restaurar o estado anterior.

SageMaker HyperPod Notas de lançamento do Inference: v2.3

O que há de novo

Esta versão apresenta novos campos opcionais nas Definições de Recursos Personalizadas (CRDs) para aprimorar a flexibilidade da configuração de implantação.

Recursos

  • Tipos de várias instâncias

    • Confiabilidade de implantação aprimorada — suporta configurações do tipo de várias instâncias com failover automático para tipos de instância alternativos quando as opções preferenciais não têm capacidade

    • Programação inteligente de recursos — usa a afinidade de nós do Kubernetes para priorizar os tipos de instância e, ao mesmo tempo, garantir a implantação mesmo quando os recursos preferenciais não estão disponíveis

    • Custo e desempenho otimizados — mantém suas preferências de tipo de instância e evita falhas relacionadas à capacidade durante as flutuações do cluster

Correções de bugs

As alterações no campo invocationEndpoint na especificação do agora InferenceEndpointConfig entrarão em vigor:

  • Se o invocationEndpoint campo for corrigido ou atualizado, os recursos dependentes, como Load Balancer SageMaker e EndpointSageMakerEndpointRegistration, serão atualizados com a normalização. Ingress

  • O valor invocationEndpoint fornecido será armazenado como está na própria InferenceEndpointConfig especificação. Quando esse valor é usado para criar um Load Balancer e, se ativado, um SageMaker Endpoint, ele será normalizado para ter uma barra inicial.

    • v1/chat/completionsserão normalizados /v1/chat/completions para o Ingress AWS Load Balancer e o Endpoint. SageMaker Para oSageMakerEndpointRegistration, ele será exibido em sua especificação comov1/chat/completions.

    • ///invokeserão normalizados /invoke para o Ingress AWS Load Balancer e o Endpoint. SageMaker Para oSageMakerEndpointRegistration, ele será exibido em sua especificação comoinvoke.

Instalando o Helm:

Siga: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Se você está focado em instalar apenas o operador de inferência, após a etapa 1, ou sejaSet Up Your Helm Environment, façacd HyperPodHelmChart/charts/inference-operator. Como você está no próprio diretório do gráfico do operador de inferência, nos comandos, onde quer que você vejahelm_chart/HyperPodHelmChart, . substitua por.

Atualize o Operador para v2.3 caso já esteja instalado:

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3