As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Notas de lançamento do Amazon SageMaker HyperPod Inference
Este tópico aborda as notas de lançamento que rastreiam atualizações, correções e novos recursos do Amazon SageMaker HyperPod Inference. SageMaker HyperPod A inferência permite que você implante e escale modelos de aprendizado de máquina em seus HyperPod clusters com confiabilidade de nível corporativo. Para ver os lançamentos, atualizações e melhorias gerais da SageMaker HyperPod plataforma Amazon, consulteNotas SageMaker HyperPod de lançamento da Amazon.
Para obter informações sobre recursos de SageMaker HyperPod inferência e opções de implantação, consulteImplantação de modelos na Amazon SageMaker HyperPod.
SageMaker HyperPod Notas de lançamento do Inference: v3.1.2
Data de lançamento: 6 de maio de 2026
Resumo
O Inference Operator v3.1.2 apresenta a captura de dados de inferência para registrar o tráfego de endpoints, a integração do HuggingFace Hub para implantação direta do modelo, o gerenciamento de DNS do Route 53 para domínios personalizados, a implantação do modelo NVMe local para reduzir a latência de inicialização a frio e contas de serviço personalizadas com suporte ao IRSA.
Novos atributos
-
Captura de dados de inferência — registre entradas e saídas em três pontos de captura: endpoint de SageMaker IA, balanceador de carga (registros de acesso do ALB) e pod de modelos. Habilite qualquer combinação via
dataCaptureseu CRD. Consulte Captura de dados para inferência sobre HyperPod. -
HuggingFace Fonte do modelo — implante modelos diretamente do HuggingFace Hub sem pré-escalar para S3 ou FSx. Suporta modelos fechados por meio de
tokenSecretRef, fixação de revisões ecommitSHAisolamento de tokens. Compatível com os tempos de execução vLLM, TGI e SGlang. Consulte Implante modelos do Amazon S3, Amazon FSx ou Hugging Face Hub usando kubectl. -
Gerenciamento de DNS do Route 53 — Crie e gerencie automaticamente registros DNS para domínios personalizados via.
dnsConfigConsulte Certificados personalizados e gerenciamento de DNS do Route 53 para HyperPod inferência. -
Implantação do modelo NVMe local — carregue os pesos do modelo do armazenamento NVMe local do nó para reduzir a latência de inicialização a frio.
modelSourceType: kubernetesVolumeSuporta fallback para S3. Consulte Implante modelos do armazenamento NVMe local usando kubectl. -
Contas de serviço personalizadas — atribua suporte personalizado ServiceAccounts com IRSA aos pods de inferência via.
spec.kubernetes.serviceAccountName
Correções de bugs
-
Propagação de User-defined tags — as tags ativadas
InferenceEndpointConfigagora se propagam corretamente para oSageMakerEndpointRegistrationCRD e os recursos de IA SageMaker downstream. Anteriormente, as tags não eram passadas durante a criação ou as atualizações do registro do endpoint. -
Preservação de réplicas com escalonamento automático — Corrigido um problema em que a atualização de um
InferenceEndpointConfigouJumpStartModelCR redefinia a contagem de réplicas para o valor especificado, substituindo a contagem de réplicas atual. HPA/KEDA-managed O operador agora preserva a contagem ativa de réplicas durante as atualizações do CR. -
Validação de CRD com escalonamento automático — Corrigiu o regex de
prometheusTrigger.serverAddressvalidação que exigia incorretamente um segmento de caminho final, causando erros 404 quando o KEDA era anexado ao URL do espaço de trabalho AMP./api/v1/query -
Rotação de certificados — Corrigida a rotação personalizada de certificados que não se propagava para o ALB após a reinicialização do pod do operador.
Atualize para a v3.1.2
Atualização do leme:
Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
Add-on Atualização do EKS:
Se você instalou o Operador de Inferência como um EKS Add-on, atualize para a versão mais recente.
Primeiro, verifique se já hyperpodClusterArn está na configuração do complemento:
CLUSTER=EKS_CLUSTER_NAME REGION=REGION aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text | jq .
Se hyperpodClusterArn estiver presente na saída, execute o seguinte comando para atualizar:
aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --resolve-conflicts OVERWRITE \ --region $REGION
Se não hyperpodClusterArn estiver presente, busque a configuração atual, adicione-a e atualize:
HP_ARN=HYPERPOD_CLUSTER_ARN CURRENT_CONFIG=$(aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text) # Add hyperpodClusterArn to the configuration NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \ '. + {hyperpodClusterArn: $arn}') aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --configuration-values "$NEW_CONFIG" \ --resolve-conflicts OVERWRITE \ --region $REGION
Aguarde até que o complemento fique ativo antes de implantar os modelos.
SageMaker HyperPod Notas de lançamento do Inference: v3.1
Data de lançamento: 3 de abril de 2026
Resumo
O Inference Operator v3.1 apresenta configuração personalizada de pod do Kubernetes, suporte personalizado a certificados e limites de solicitação por pod.
Características principais
-
Configuração personalizada do pod Kubernetes — Foi adicionado um novo
kubernetescampo aoInferenceEndpointConfigCRD que permite aos usuários personalizar as configurações do pod de inferência:-
Contêineres de inicialização personalizados — Execute contêineres de inicialização definidos pelo usuário antes que o servidor de inferência seja iniciado (por exemplo, aquecimento de cache, configuração do GDS). Os contêineres iniciais são injetados após o contêiner de pré-busca do operador.
-
Volumes personalizados — adicione volumes adicionais (
emptyDir,,hostPathconfigMap, etc.) à especificação do pod, que podem ser referenciados pelos contêineres de inicialização por meio de.volumeMounts -
Nome do agendador personalizado — especifique um agendador Kubernetes personalizado para a colocação do pod.
-
-
Certificados personalizados — Use seus próprios certificados ACM para endpoints de inferência em vez de certificados autoassinados gerados pelo operador, configurados via.
customCertificateConfigOferece suporte a certificados ACM publicamente confiáveis, certificados de CA AWS privada e certificados importados de CAs externas. O operador monitora a integridade do certificado e oferece suporte à detecção automática de renovação. -
Limites de solicitação — Controle o tratamento de solicitações por pod por meio da nova
RequestLimitsconfiguração abaixoWorker, com os seguintes campos configuráveis:-
maxConcurrentRequests— Máximo de solicitações simultâneas em voo por pod. -
maxQueueSize— Solicitações de fila quando o limite de simultaneidade é atingido antes da rejeição. -
overflowStatusCode— Código de status HTTP retornado quando os limites são excedidos (padrão: 429).
-
Para obter informações detalhadas, incluindo pré-requisitos e instruções de atualização, consulte as seções abaixo.
Pré-requisitos
Para usar o recurso de certificados personalizados, adicione as seguintes permissões à sua função de execução de operador de inferência:
{ "Sid": "ACMCertificateAccess", "Effect": "Allow", "Action": [ "acm:DescribeCertificate", "acm:GetCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*" }
Atualize para v3.1
Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
SageMaker HyperPod Notas de lançamento do Inference: v3.0
Data de lançamento: 23 de fevereiro de 2026
Resumo
O Inference Operator 3.0 apresenta a Add-on integração EKS para gerenciamento simplificado do ciclo de vida, suporte ao Node Affinity para controle granular de agendamento e marcação aprimorada de recursos. Helm-based As instalações existentes podem ser migradas para o EKS Add-on usando o script de migração fornecido. Atualize sua função de execução do Operador de Inferência com novas permissões de marcação antes da atualização.
Características principais
-
Add-on Integração EKS — gerenciamento Enterprise-grade do ciclo de vida com experiência de instalação simplificada
-
Node Affinity — Controle granular de agendamento para excluir instâncias spot, preferir zonas de disponibilidade ou direcionar nós com rótulos personalizados
Para obter informações detalhadas, incluindo pré-requisitos, instruções de upgrade e diretrizes de migração, consulte as seções abaixo.
Pré-requisitos
Antes de atualizar a versão do Helm para 3.0, os clientes devem adicionar permissões adicionais de marcação à sua função de execução de operador de inferência. Como parte da melhoria da marcação e da segurança de recursos, o Operador de Inferência agora marca os recursos ALB, S3 e ACM. Esse aprimoramento requer permissões adicionais na função de execução do Operador de Inferência. Adicione as seguintes permissões à sua função de execução do Operador de Inferência:
{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }
Atualize para v3.0
Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
Migração do Helm para o EKS Add-on
Se o operador de inferência for instalado por meio do Helm antes da versão 3.0, recomendamos migrar para o EKS Add-on para obter atualizações oportunas sobre os novos recursos que serão lançados para o operador de inferência. Esse script migra o operador de SageMaker HyperPod inferência da Helm-based instalação para a instalação do EKS Add-on .
Visão geral: o script usa um nome de cluster e uma região como parâmetros, recupera a configuração de instalação existente do Helm e migra para a implantação do EKS. Add-on Ele cria novas funções do IAM para o operador de inferência, o controlador ALB e o operador KEDA.
Antes de migrar o operador de inferência, o script garante que as dependências necessárias (driver S3 CSI, driver FSx CSI, cert-manager e metrics-server) existam. Se eles não existirem, ele os implanta como Add-on.
Depois que a Add-on migração do Inference Operator for concluída, o script também migrará S3, FSx e outras dependências (ALB, KEDA, cert-manager, metrics-server) se elas tiverem sido originalmente instaladas por meio do gráfico Inference Operator Helm. Use --skip-dependencies-migration para pular esta etapa para o driver S3 CSI, o driver FSx CSI, o cert-manager e o metrics-server. Observe que o ALB e o KEDA são instalados como parte do Add-on no mesmo namespace do Operador de Inferência e serão migrados como parte do Operador de Inferência. Add-on
Importante
Durante a migração, não implante novos modelos, pois eles não serão implantados até que a migração seja concluída. Quando o operador de inferência Add-on está no estado ATIVO, novos modelos podem ser implantados. O tempo de migração normalmente leva de 15 a 20 minutos e pode ser concluído em 30 minutos se apenas alguns modelos estiverem implantados atualmente.
Pré-requisitos de migração:
AWS CLI configurado com as credenciais apropriadas
kubectl configurado com acesso ao seu cluster EKS
Capacete instalado
Instalação existente do Helm do hyperpod-inference-operator
nota
Os endpoints que já estão em execução não serão interrompidos durante o processo de migração. Os endpoints existentes continuarão a atender ao tráfego sem interrupções durante a migração.
Obtendo o script de migração:
git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration
Uso:
./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)
Opções:
--cluster-name NAME— Nome do cluster EKS (obrigatório)--region REGION— AWS região (obrigatório)--helm-namespace NAMESPACE— Namespace onde o gráfico Helm está instalado (padrão: kube-system) (opcional)--s3-mountpoint-role-arn ARN— ARN da função IAM do driver CSI do S3 Mountpoint (opcional)--fsx-role-arn ARN— ARN da função IAM do driver FSx CSI (opcional)--auto-approve— Ignore as solicitações de confirmação se esse sinalizador estiver ativado.step-by-stepeauto-approvesão mutuamente exclusivos,--auto-approvese forem fornecidos, não especifique--step-by-step(opcional)--step-by-step— Faça uma pausa após cada etapa principal para revisão. Isso não deve ser mencionado--auto-approvese já tiver sido adicionado (opcional)--skip-dependencies-migration— Ignore a migração de Helm-installed dependências para o. Add-on Pois as dependências NÃO foram instaladas por meio do gráfico Inference Operator Helm ou se você quiser gerenciá-las separadamente. (opcional)
Exemplos:
Migração básica (migra dependências):
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1
Auto-approve sem avisos:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve
Ignore a migração de dependências para FSx, S3 mountpoint, cert manager e Metrics server:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration
Forneça as funções S3 e FSx IAM existentes:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
Local do backup:
Os backups são armazenados em /tmp/hyperpod-migration-backup-<timestamp>/
Os backups permitem migração e recuperação seguras:
Reversão em caso de falha — Se a migração falhar, o script poderá restaurar automaticamente seu cluster ao estado anterior à migração usando as configurações de backup
Trilha de auditoria — fornece um registro completo do que existia antes da migração para solução de problemas e conformidade
Referência de configuração — permite comparar configurações de pré-migração e pós-migração
Recuperação manual — Se necessário, você pode inspecionar e restaurar manualmente recursos específicos do diretório de backup
Reversão:
Se a migração falhar, o script solicitará a confirmação do usuário antes de iniciar a reversão para restaurar o estado anterior.
SageMaker HyperPod Notas de lançamento do Inference: v2.3
O que há de novo
Esta versão apresenta novos campos opcionais nas Definições de Recursos Personalizadas (CRDs) para aprimorar a flexibilidade da configuração de implantação.
Recursos
-
Tipos de várias instâncias
-
Confiabilidade de implantação aprimorada — suporta configurações do tipo de várias instâncias com failover automático para tipos de instância alternativos quando as opções preferenciais não têm capacidade
-
Programação inteligente de recursos — usa a afinidade de nós do Kubernetes para priorizar os tipos de instância e, ao mesmo tempo, garantir a implantação mesmo quando os recursos preferenciais não estão disponíveis
-
Custo e desempenho otimizados — mantém suas preferências de tipo de instância e evita falhas relacionadas à capacidade durante as flutuações do cluster
-
Correções de bugs
As alterações no campo invocationEndpoint na especificação do agora InferenceEndpointConfig entrarão em vigor:
-
Se o
invocationEndpointcampo for corrigido ou atualizado, os recursos dependentes, como Load Balancer SageMaker e EndpointSageMakerEndpointRegistration, serão atualizados com a normalização.Ingress -
O valor
invocationEndpointfornecido será armazenado como está na própriaInferenceEndpointConfigespecificação. Quando esse valor é usado para criar um Load Balancer e, se ativado, um SageMaker Endpoint, ele será normalizado para ter uma barra inicial.-
v1/chat/completionsserão normalizados/v1/chat/completionspara oIngressAWS Load Balancer e o Endpoint. SageMaker Para oSageMakerEndpointRegistration, ele será exibido em sua especificação comov1/chat/completions. -
///invokeserão normalizados/invokepara oIngressAWS Load Balancer e o Endpoint. SageMaker Para oSageMakerEndpointRegistration, ele será exibido em sua especificação comoinvoke.
-
Instalando o Helm:
Siga: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart
Se você está focado em instalar apenas o operador de inferência, após a etapa 1, ou sejaSet Up Your Helm Environment, façacd HyperPodHelmChart/charts/inference-operator. Como você está no próprio diretório do gráfico do operador de inferência, nos comandos, onde quer que você vejahelm_chart/HyperPodHelmChart, . substitua por.
Atualize o Operador para v2.3 caso já esteja instalado:
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3