Note sulla versione di Amazon SageMaker HyperPod Inference

Questo argomento tratta le note di rilascio che tengono traccia di aggiornamenti, correzioni e nuove funzionalità per Amazon SageMaker HyperPod Inference. SageMaker HyperPod Inference ti consente di distribuire e scalare modelli di machine learning sui tuoi HyperPod cluster con un'affidabilità di livello aziendale. Per versioni, aggiornamenti e miglioramenti generali della SageMaker HyperPod piattaforma Amazon, consultaNote di SageMaker HyperPod rilascio di Amazon.

Per informazioni sulle funzionalità di SageMaker HyperPod inferenza e sulle opzioni di distribuzione, consultaImplementazione di modelli su Amazon SageMaker HyperPod.

SageMaker HyperPod Note sulla versione di Inference: v3.2

Data di uscita: 12 giugno 2026

Riepilogo

Inference Operator v3.2 consente ai clienti di implementare LLM a lungo contesto (come Llama 3.3 70B) con latenza prevedibile per token in caso di carico simultaneo. La versione introduce Disaggregated Prefill and Decode (DPD), che separa la fase di preriempimento legata al calcolo e la fase di decodifica legata alla larghezza di banda di memoria su pool di GPU distinti e trasferisce la cache KV tra di essi tramite EFA con RDMA. GPU-Direct DPD riduce la latenza di coda per token, aumenta la velocità effettiva e consente di scalare la capacità di preriempimento e decodifica in modo indipendente. Oltre a DPD, in questa versione includiamo altre correzioni di bug.

Caratteristiche principali

Precompilazione e decodifica disaggregate (DPD)

È stato aggiunto un nuovo pdSpec campo al InferenceEndpointConfig CRD che consente l'inferenza disaggregata. Quando pdSpec è impostato, l'operatore fornisce pod di precompilazione e decodifica separati, li collega tra loro tramite il router DPD e trasferisce la cache KV tra di essi utilizzando LMCache su NIXL ed EFA con RDMA. GPU-Direct Alcuni esempi di campi configurabili includono (per ulteriori configurazioni, consultare la guida per l'utente):
- routingThreshold— Token-length soglia oltre la quale le richieste utilizzano il percorso disaggregato. Al di sotto della soglia, le richieste ignorano il prefiller e vanno direttamente al decoder.
- prefillSpec.argse decodingSpec.args — i flag Per-role vLLM sono stati uniti all'avvio. worker.args
- prefillSpec.replicase decodingSpec.replicas — Scala la capacità di preriempimento e decodifica in modo indipendente per adattarla alla distribuzione della lunghezza di input e output del carico di lavoro.
Prerequisito
- Per implementare gli endpoint DPD, i nodi del cluster devono supportare EFA con lettura e scrittura RDMA e trovarsi all'interno della stessa zona di disponibilità per la comunicazione nodo a nodo a larghezza di banda elevata.
- Famiglie ml.p5.48xlarge ml.p5e.48xlarge ml.p5en.48xlarge di ml.p6-b200.48xlarge ml.p6-b300.48xlarge istanze consigliate:,,,,.

Correzioni di bug

Pianificazione dell'operatore sui nodi x86: l'implementazione dell'operatore ora utilizza la pianificazione nodeAffinity solo sui nodi Linux amd64.
Includiamo altre correzioni minori e di sicurezza.

Aggiornamento alla versione 3.2

Aggiornamento del timone:

Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.2

# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Aggiornamento EKS Add-on :

Se hai installato Inference Operator come EKS Add-on, esegui l'aggiornamento alla versione più recente:


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.3.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

SageMaker HyperPod Note di rilascio di Inference: v3.1.2

Data di uscita: 6 maggio 2026

Riepilogo

Inference Operator v3.1.2 introduce l'acquisizione dei dati di inferenza per la registrazione del traffico degli endpoint, l'integrazione dell' HuggingFace hub per l'implementazione diretta del modello, la gestione DNS Route 53 per domini personalizzati, l'implementazione del modello NVMe locale per una latenza di avvio a freddo ridotta e account di servizio personalizzati con supporto IRSA.

Nuove funzionalità

Inference Data Capture: registra input e output in tre punti di acquisizione: endpoint AI, load balancer (log di accesso ALB) e modello pod. SageMaker Abilita qualsiasi combinazione tramite il tuo CRD. dataCapture Per informazioni, consulta Acquisizione di dati per inferenza su HyperPod.
HuggingFace Model Source: implementa i modelli direttamente da HuggingFace Hub senza preinstallarli su S3 o FSx. Supporta modelli controllati tramitetokenSecretRef, revision pinning e isolamento dei token. commitSHA Compatibile con i runtime VLLm, TGI e SGlang. Per informazioni, consulta Distribuisci modelli da Amazon S3, Amazon FSx o Hugging Face Hub usando kubectl.
Gestione DNS Route 53: crea e gestisci automaticamente i record DNS per domini personalizzati tramite. dnsConfig Per informazioni, consulta Certificati personalizzati e gestione DNS Route 53 per Inference HyperPod.
Implementazione del modello NVMe locale: carica i pesi dei modelli dallo storage NVMe locale del nodo per ridurre la latenza di avvio a freddo. modelSourceType: kubernetesVolume Supporta il fallback su S3. Per informazioni, consulta Distribuisci modelli dallo storage NVMe locale usando kubectl.
Account di servizio personalizzati: assegna supporto personalizzato ServiceAccounts con IRSA ai pod di inferenza tramite. spec.kubernetes.serviceAccountName

Correzioni di bug

Propagazione dei tag: i User-defined tag attivi InferenceEndpointConfig ora si propagano correttamente al CRD e alle risorse AI a valleSageMakerEndpointRegistration. SageMaker In precedenza, i tag non venivano trasmessi durante la creazione o gli aggiornamenti della registrazione degli endpoint.
Scalabilità automatica della conservazione delle repliche: è stato risolto un problema a causa del quale l'aggiornamento di un InferenceEndpointConfig o JumpStartModel CR reimpostava il conteggio delle repliche al valore specifico, sostituendo il numero di repliche corrente. HPA/KEDA-managed L'operatore ora conserva il numero di repliche attive durante gli aggiornamenti CR.
Validazione CRD con scalabilità automatica: è stata corretta l'espressione regolare di prometheusTrigger.serverAddress convalida che richiedeva erroneamente un segmento di percorso finale, causando 404 errori quando KEDA veniva aggiunto all'URL dell'area di lavoro AMP. /api/v1/query
Rotazione dei certificati: rotazione fissa dei certificati personalizzati che non si propagavano ad ALB dopo il riavvio del pod dell'operatore.

Aggiornamento alla versione 3.1.2

Aggiornamento del timone:

Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Aggiornamento EKS Add-on :

Se hai installato Inference Operator come EKS Add-on, esegui l'aggiornamento alla versione più recente.

Innanzitutto, controlla se hyperpodClusterArn è già presente nella configurazione del componente aggiuntivo:


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .

Se hyperpodClusterArn è presente nell'output, esegui il seguente comando per eseguire l'aggiornamento:


aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

Se non hyperpodClusterArn è presente, recupera la configurazione corrente, aggiungila e aggiorna:


HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION

Attendi che il componente aggiuntivo diventi attivo prima di distribuire i modelli.

SageMaker HyperPod Note sulla versione di Inference: v3.1

Data di uscita: 3 aprile 2026

Riepilogo

Inference Operator v3.1 introduce la configurazione personalizzata dei pod Kubernetes, il supporto personalizzato per i certificati e i limiti di richiesta per pod.

Caratteristiche principali

Configurazione personalizzata di Kubernetes Pod: aggiunto un nuovo kubernetes campo al InferenceEndpointConfig CRD che consente agli utenti di personalizzare le configurazioni dei pod di inferenza:
- Contenitori init personalizzati: esegui contenitori init definiti dall'utente prima dell'avvio del server di inferenza (ad esempio, riscaldamento della cache, configurazione GDS). I contenitori Init vengono iniettati dopo il contenitore di prefetch dell'operatore.
- Volumi personalizzati: aggiungi volumi aggiuntivi (emptyDir, hostPathconfigMap, ecc.) alle specifiche del pod, a cui possono fare riferimento i contenitori init tramite. volumeMounts
- Nome dello scheduler personalizzato: specifica uno scheduler Kubernetes personalizzato per il posizionamento dei pod.
Certificati personalizzati: utilizza i tuoi certificati ACM per gli endpoint di inferenza anziché certificati autofirmati generati dall'operatore, configurati tramite. customCertificateConfig Supporta certificati ACM affidabili pubblicamente, certificati CA AWS privati e certificati importati da CA esterne. L'operatore monitora lo stato dei certificati e supporta il rilevamento automatico del rinnovo.
Limiti delle richieste: controlla la gestione delle richieste per pod tramite la nuova RequestLimits configurazione inWorker, con i seguenti campi configurabili:
- maxConcurrentRequests— Numero massimo di richieste simultanee in volo per pod.
- maxQueueSize— Richieste da mettere in coda quando viene raggiunto il limite di concorrenza prima di essere rifiutate.
- overflowStatusCode— Codice di stato HTTP restituito quando vengono superati i limiti (impostazione predefinita: 429).

Per informazioni dettagliate, inclusi i prerequisiti e le istruzioni di aggiornamento, consulta le sezioni seguenti.

Prerequisiti

Per utilizzare la funzionalità Certificati personalizzati, aggiungi le seguenti autorizzazioni al tuo ruolo di esecuzione Inference Operator:


{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}

Aggiornamento alla versione 3.1

Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

SageMaker HyperPod Note di rilascio di Inference: v3.0

Data di uscita: 23 febbraio 2026

Riepilogo

Inference Operator 3.0 introduce l' Add-on integrazione EKS per una gestione semplificata del ciclo di vita, il supporto Node Affinity per il controllo granulare della pianificazione e una migliore etichettatura delle risorse. Helm-based Le installazioni esistenti possono essere migrate a EKS utilizzando lo script di migrazione fornito. Add-on Aggiorna il tuo ruolo di esecuzione di Inference Operator con nuove autorizzazioni di tagging prima dell'aggiornamento.

Caratteristiche principali

EKS Add-on Integration: gestione Enterprise-grade del ciclo di vita con esperienza di installazione semplificata
Node Affinity: controllo granulare della pianificazione per escludere le istanze spot, preferire le zone di disponibilità o indirizzare i nodi con etichette personalizzate

Per informazioni dettagliate, tra cui prerequisiti, istruzioni di aggiornamento e linee guida sulla migrazione, consulta le sezioni seguenti.

Prerequisiti

Prima di aggiornare la versione Helm alla 3.0, i clienti devono aggiungere ulteriori autorizzazioni di tagging al proprio ruolo di operatore di esecuzione di Inference. Nell'ambito del miglioramento della codifica e della sicurezza delle risorse, Inference Operator ora tagga le risorse ALB, S3 e ACM. Questo miglioramento richiede autorizzazioni aggiuntive nel ruolo di esecuzione di Inference Operator. Aggiungi le seguenti autorizzazioni al tuo ruolo di esecuzione Inference Operator:


{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}

Aggiornamento alla versione 3.0

Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Migrazione da Helm a EKS Add-on

Se Inference operator è installato tramite Helm prima della versione 3.0, consigliamo di migrare a EKS per Add-on ottenere aggiornamenti tempestivi sulle nuove funzionalità che verranno rilasciate per Inference Operator. Questo script migra l' SageMaker HyperPod Inference Operator dall'installazione all'installazione EKS. Helm-based Add-on

Panoramica: lo script accetta un nome e una regione del cluster come parametri, recupera la configurazione di installazione di Helm esistente e migra alla distribuzione EKS. Add-on Crea nuovi ruoli IAM per Inference Operator, ALB Controller e KEDA Operator.

Prima di migrare l'Inference Operator, lo script garantisce l'esistenza delle dipendenze richieste (driver CSI S3, driver CSI FSx, cert-manager e metrics-server). Se non esistono, li distribuisce come. Add-on

Una volta completata la Add-on migrazione di Inference Operator, lo script migra anche S3, FSx e altre dipendenze (ALB, KEDA, cert-manager, metrics-server) se originariamente installate tramite il grafico Inference Operator Helm. --skip-dependencies-migrationUtilizzatelo per saltare questo passaggio per il driver S3 CSI, il driver FSx CSI, il cert-manager e il metrics-server. Nota che ALB e KEDA vengono installati come parte di nello stesso namespace di Inference Operator e Add-on verranno migrati come parte di Inference Operator. Add-on

Importante

Durante la migrazione, non distribuite nuovi modelli poiché non verranno implementati fino al completamento della migrazione. Una volta che l'Inference Operator Add-on è nello stato ATTIVO, è possibile implementare nuovi modelli. Il tempo di migrazione richiede in genere da 15 a 20 minuti e può essere completato entro 30 minuti se attualmente sono implementati solo pochi modelli.

Prerequisiti per la migrazione:

AWS CLI configurato con credenziali appropriate
kubectl configurato con accesso al cluster EKS
Helm installato
Installazione Helm esistente di hyperpod-inference-operator

Nota

Gli endpoint già in esecuzione non verranno interrotti durante il processo di migrazione. Gli endpoint esistenti continueranno a servire il traffico senza interruzioni durante tutta la migrazione.

Ottenere lo script di migrazione:


git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration

Utilizzo:


./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)

Opzioni:

--cluster-name NAME— nome del cluster EKS (richiesto)
--region REGION— AWS regione (richiesto)
--helm-namespace NAMESPACE— Namespace in cui è installato Helm chart (impostazione predefinita: kube-system) (opzionale)
--s3-mountpoint-role-arn ARN— ARN del ruolo IAM del driver S3 Mountpoint CSI (opzionale)
--fsx-role-arn ARN— ARN del ruolo IAM del driver FSx CSI (opzionale)
--auto-approve— Ignora le richieste di conferma se questo flag è abilitato. step-by-stepe auto-approve si escludono a vicenda, se fornite, --auto-approve non specificate (opzionale) --step-by-step
--step-by-step— Fai una pausa dopo ogni passaggio principale per la revisione. Questo non dovrebbe essere menzionato se --auto-approve è già stato aggiunto (opzionale)
--skip-dependencies-migration— Salta la migrazione delle Helm-installed dipendenze a. Add-on Perché le dipendenze NON sono state installate tramite il grafico Inference Operator Helm o se si desidera gestirle separatamente. (opzionale)

Esempi:

Migrazione di base (migra le dipendenze):


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1

Auto-approve senza istruzioni:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve

Salta la migrazione delle dipendenze per FSx, S3 mountpoint, cert manager e server Metrics:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration

Fornisci ruoli IAM S3 e FSx esistenti:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Posizione di backup:

I backup sono archiviati in /tmp/hyperpod-migration-backup-<timestamp>/

I backup consentono la migrazione e il ripristino sicuri:

Rollback in caso di errore: se la migrazione fallisce, lo script può ripristinare automaticamente il cluster allo stato precedente alla migrazione utilizzando le configurazioni di backup
Audit Trail: fornisce una registrazione completa di ciò che esisteva prima della migrazione per la risoluzione dei problemi e la conformità
Riferimento alla configurazione: consente di confrontare le configurazioni precedenti e successive alla migrazione
Ripristino manuale: se necessario, è possibile ispezionare e ripristinare manualmente risorse specifiche dalla directory di backup

Ripristino:

Se la migrazione fallisce, lo script richiede la conferma dell'utente prima di avviare il rollback per ripristinare lo stato precedente.

SageMaker HyperPod Note sulla versione di Inference: v2.3

Cosa c'è di nuovo

Questa versione introduce nuovi campi opzionali nelle Custom Resource Definitions (CRD) per migliorare la flessibilità di configurazione della distribuzione.

Funzionalità

Tipi di istanze multiple
- Maggiore affidabilità di implementazione: supporta configurazioni di tipo multiistanza con failover automatico su tipi di istanza alternativi quando le opzioni preferite non dispongono di capacità
- Pianificazione intelligente delle risorse: utilizza l'affinità dei nodi Kubernetes per dare priorità ai tipi di istanze garantendo al contempo l'implementazione anche quando le risorse preferite non sono disponibili
- Costi e prestazioni ottimizzati: mantiene le preferenze relative al tipo di istanza e previene i guasti legati alla capacità durante le fluttuazioni del cluster

Correzioni di bug

Le modifiche al campo invocationEndpoint nelle specifiche di ora avranno effetto: InferenceEndpointConfig

Se il invocationEndpoint campo è patchato o aggiornato, le risorse dipendenti, come Load Balancer SageMaker ed EndpointSageMakerEndpointRegistration, verranno aggiornate con la normalizzazione. Ingress
Il valore invocationEndpoint fornito verrà memorizzato così com'è nelle specifiche stesse. InferenceEndpointConfig Quando questo valore viene utilizzato per creare un Load Balancer e, se abilitato, un SageMaker Endpoint, verrà normalizzato in modo da avere una barra anteriore.
- v1/chat/completionsverrà normalizzato a /v1/chat/completions for theIngress, AWS Load Balancer ed Endpoint. SageMaker Per ilSageMakerEndpointRegistration, verrà visualizzato nelle sue specifiche come. v1/chat/completions
- ///invokeverrà normalizzato a /invoke for theIngress, AWS Load Balancer ed Endpoint. SageMaker Per ilSageMakerEndpointRegistration, verrà visualizzato nelle sue specifiche come. invoke

Installazione di Helm:

Segui: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Se ti concentri solo sull'installazione dell'operatore di inferenza, dopo il passaggio 1, ad esempioSet Up Your Helm Environment, fallocd HyperPodHelmChart/charts/inference-operator. Poiché ti trovi nella stessa directory del grafico degli operatori di inferenza, nei comandi, ovunque tu vedahelm_chart/HyperPodHelmChart, sostituisci con. .

Aggiorna Operator alla versione 2.3 nel caso in cui sia già installato:


cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Memorizzazione nella cache KV e routing intelligente

Riferimento agli eventi del cluster