Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Note sulla versione di Amazon SageMaker HyperPod Inference
Questo argomento tratta le note di rilascio che tengono traccia di aggiornamenti, correzioni e nuove funzionalità per Amazon SageMaker HyperPod Inference. SageMaker HyperPod Inference ti consente di distribuire e scalare modelli di machine learning sui tuoi HyperPod cluster con un'affidabilità di livello aziendale. Per le versioni, gli aggiornamenti e i miglioramenti generali della SageMaker HyperPod piattaforma Amazon, consultaNote di SageMaker HyperPod rilascio di Amazon.
Per informazioni sulle funzionalità di SageMaker HyperPod inferenza e sulle opzioni di distribuzione, consultaImplementazione di modelli su Amazon SageMaker HyperPod.
SageMaker HyperPod Note sulla versione di Inference: v3.1.2
Data di uscita: 6 maggio 2026
Riepilogo
Inference Operator v3.1.2 introduce l'acquisizione dei dati di inferenza per la registrazione del traffico degli endpoint, l'integrazione dell' HuggingFace hub per l'implementazione diretta del modello, la gestione DNS Route 53 per domini personalizzati, l'implementazione del modello NVMe locale per una latenza di avvio a freddo ridotta e account di servizio personalizzati con supporto IRSA.
Nuove funzionalità
-
Inference Data Capture: registra input e output in tre punti di acquisizione: endpoint AI, load balancer (log di accesso ALB) e modello pod. SageMaker Abilita qualsiasi combinazione tramite il tuo CRD.
dataCapturePer informazioni, consulta Acquisizione di dati per inferenza su HyperPod. -
HuggingFace Model Source: implementa i modelli direttamente da HuggingFace Hub senza preinstallarli su S3 o FSx. Supporta modelli controllati tramite
tokenSecretRef, revision pinning e isolamento dei token.commitSHACompatibile con i runtime VLLm, TGI e SGlang. Per informazioni, consulta Distribuisci modelli da Amazon S3, Amazon FSx o Hugging Face Hub usando kubectl. -
Gestione DNS Route 53: crea e gestisci automaticamente i record DNS per domini personalizzati tramite.
dnsConfigPer informazioni, consulta Certificati personalizzati e gestione DNS Route 53 per Inference HyperPod. -
Implementazione del modello NVMe locale: carica i pesi dei modelli dallo storage NVMe locale del nodo per ridurre la latenza di avvio a freddo.
modelSourceType: kubernetesVolumeSupporta il fallback su S3. Per informazioni, consulta Distribuisci modelli dallo storage NVMe locale usando kubectl. -
Account di servizio personalizzati: assegna supporto personalizzato ServiceAccounts con IRSA ai pod di inferenza tramite.
spec.kubernetes.serviceAccountName
Correzioni di bug
-
Propagazione dei tag: i User-defined tag attivi
InferenceEndpointConfigora si propagano correttamente al CRD e alle risorse AI a valleSageMakerEndpointRegistration. SageMaker In precedenza, i tag non venivano trasmessi durante la creazione o gli aggiornamenti della registrazione degli endpoint. -
Scalabilità automatica della conservazione delle repliche: è stato risolto un problema a causa del quale l'aggiornamento di un
InferenceEndpointConfigoJumpStartModelCR reimpostava il conteggio delle repliche al valore specifico, sostituendo il numero di repliche corrente. HPA/KEDA-managed L'operatore ora conserva il numero di repliche attive durante gli aggiornamenti CR. -
Validazione CRD con scalabilità automatica: è stata corretta l'espressione regolare di
prometheusTrigger.serverAddressconvalida che richiedeva erroneamente un segmento di percorso finale, causando 404 errori quando KEDA veniva aggiunto all'URL dell'area di lavoro AMP./api/v1/query -
Rotazione dei certificati: rotazione fissa dei certificati personalizzati che non si propagavano ad ALB dopo il riavvio del pod dell'operatore.
Aggiornamento alla versione 3.1.2
Aggiornamento del timone:
Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
Aggiornamento EKS Add-on :
Se hai installato Inference Operator come EKS Add-on, esegui l'aggiornamento alla versione più recente.
Innanzitutto, controlla se hyperpodClusterArn è già presente nella configurazione del componente aggiuntivo:
CLUSTER=EKS_CLUSTER_NAME REGION=REGION aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text | jq .
Se hyperpodClusterArn è presente nell'output, esegui il seguente comando per eseguire l'aggiornamento:
aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --resolve-conflicts OVERWRITE \ --region $REGION
Se non hyperpodClusterArn è presente, recupera la configurazione corrente, aggiungila e aggiorna:
HP_ARN=HYPERPOD_CLUSTER_ARN CURRENT_CONFIG=$(aws eks describe-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --region $REGION \ --query 'addon.configurationValues' --output text) # Add hyperpodClusterArn to the configuration NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \ '. + {hyperpodClusterArn: $arn}') aws eks update-addon \ --cluster-name $CLUSTER \ --addon-name amazon-sagemaker-hyperpod-inference \ --addon-version v1.2.0-eksbuild.1 \ --configuration-values "$NEW_CONFIG" \ --resolve-conflicts OVERWRITE \ --region $REGION
Attendi che il componente aggiuntivo diventi attivo prima di distribuire i modelli.
SageMaker HyperPod Note sulla versione di Inference: v3.1
Data di uscita: 3 aprile 2026
Riepilogo
Inference Operator v3.1 introduce la configurazione personalizzata dei pod Kubernetes, il supporto personalizzato per i certificati e i limiti di richiesta per pod.
Caratteristiche principali
-
Configurazione personalizzata di Kubernetes Pod: aggiunto un nuovo
kubernetescampo alInferenceEndpointConfigCRD che consente agli utenti di personalizzare le configurazioni dei pod di inferenza:-
Contenitori init personalizzati: esegui contenitori init definiti dall'utente prima dell'avvio del server di inferenza (ad esempio, riscaldamento della cache, configurazione GDS). I contenitori Init vengono iniettati dopo il contenitore di prefetch dell'operatore.
-
Volumi personalizzati: aggiungi volumi aggiuntivi (
emptyDir,hostPathconfigMap, ecc.) alle specifiche del pod, a cui possono fare riferimento i contenitori init tramite.volumeMounts -
Nome dello scheduler personalizzato: specifica uno scheduler Kubernetes personalizzato per il posizionamento dei pod.
-
-
Certificati personalizzati: utilizza i tuoi certificati ACM per gli endpoint di inferenza anziché certificati autofirmati generati dall'operatore, configurati tramite.
customCertificateConfigSupporta certificati ACM affidabili pubblicamente, certificati CA AWS privati e certificati importati da CA esterne. L'operatore monitora lo stato dei certificati e supporta il rilevamento automatico del rinnovo. -
Limiti delle richieste: controlla la gestione delle richieste per pod tramite la nuova
RequestLimitsconfigurazione inWorker, con i seguenti campi configurabili:-
maxConcurrentRequests— Numero massimo di richieste simultanee in volo per pod. -
maxQueueSize— Richieste da mettere in coda quando viene raggiunto il limite di concorrenza prima di essere rifiutate. -
overflowStatusCode— Codice di stato HTTP restituito quando vengono superati i limiti (impostazione predefinita: 429).
-
Per informazioni dettagliate, inclusi i prerequisiti e le istruzioni di aggiornamento, consulta le sezioni seguenti.
Prerequisiti
Per utilizzare la funzionalità Certificati personalizzati, aggiungi le seguenti autorizzazioni al tuo ruolo di esecuzione Inference Operator:
{ "Sid": "ACMCertificateAccess", "Effect": "Allow", "Action": [ "acm:DescribeCertificate", "acm:GetCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*" }
Aggiornamento alla versione 3.1
Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.1 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
SageMaker HyperPod Note di rilascio di Inference: v3.0
Data di uscita: 23 febbraio 2026
Riepilogo
Inference Operator 3.0 introduce l' Add-on integrazione EKS per una gestione semplificata del ciclo di vita, il supporto Node Affinity per il controllo granulare della pianificazione e una migliore etichettatura delle risorse. Helm-based Le installazioni esistenti possono essere migrate a EKS utilizzando lo script di migrazione fornito. Add-on Aggiorna il tuo ruolo di esecuzione di Inference Operator con nuove autorizzazioni di tagging prima dell'aggiornamento.
Caratteristiche principali
-
EKS Add-on Integration: gestione Enterprise-grade del ciclo di vita con esperienza di installazione semplificata
-
Node Affinity: controllo granulare della pianificazione per escludere le istanze spot, preferire le zone di disponibilità o indirizzare i nodi con etichette personalizzate
Per informazioni dettagliate, tra cui prerequisiti, istruzioni di aggiornamento e linee guida sulla migrazione, consulta le sezioni seguenti.
Prerequisiti
Prima di aggiornare la versione Helm alla 3.0, i clienti devono aggiungere ulteriori autorizzazioni di tagging al proprio ruolo di operatore di esecuzione di Inference. Nell'ambito del miglioramento della codifica e della sicurezza delle risorse, Inference Operator ora tagga le risorse ALB, S3 e ACM. Questo miglioramento richiede autorizzazioni aggiuntive nel ruolo di esecuzione di Inference Operator. Aggiungi le seguenti autorizzazioni al tuo ruolo di esecuzione Inference Operator:
{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }
Aggiornamento alla versione 3.0
Se hai già installato Inference Operator tramite Helm, usa i seguenti comandi per eseguire l'aggiornamento:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
Migrazione da Helm a EKS Add-on
Se Inference operator è installato tramite Helm prima della versione 3.0, consigliamo di migrare a EKS per Add-on ottenere aggiornamenti tempestivi sulle nuove funzionalità che verranno rilasciate per Inference Operator. Questo script migra l' SageMaker HyperPod Inference Operator dall'installazione all'installazione EKS. Helm-based Add-on
Panoramica: lo script accetta un nome e una regione del cluster come parametri, recupera la configurazione di installazione di Helm esistente e migra alla distribuzione EKS. Add-on Crea nuovi ruoli IAM per Inference Operator, ALB Controller e KEDA Operator.
Prima di migrare l'Inference Operator, lo script garantisce l'esistenza delle dipendenze richieste (driver CSI S3, driver CSI FSx, cert-manager e metrics-server). Se non esistono, li distribuisce come. Add-on
Una volta completata la Add-on migrazione di Inference Operator, lo script migra anche S3, FSx e altre dipendenze (ALB, KEDA, cert-manager, metrics-server) se originariamente installate tramite il grafico Inference Operator Helm. --skip-dependencies-migrationUtilizzatelo per saltare questo passaggio per il driver S3 CSI, il driver FSx CSI, il cert-manager e il metrics-server. Nota che ALB e KEDA vengono installati come parte di nello stesso namespace di Inference Operator e Add-on verranno migrati come parte di Inference Operator. Add-on
Importante
Durante la migrazione, non distribuite nuovi modelli poiché non verranno implementati fino al completamento della migrazione. Una volta che l'Inference Operator Add-on è nello stato ATTIVO, è possibile implementare nuovi modelli. Il tempo di migrazione richiede in genere da 15 a 20 minuti e può essere completato entro 30 minuti se attualmente sono implementati solo pochi modelli.
Prerequisiti per la migrazione:
AWS CLI configurato con credenziali appropriate
kubectl configurato con accesso al cluster EKS
Helm installato
Installazione Helm esistente di hyperpod-inference-operator
Nota
Gli endpoint già in esecuzione non verranno interrotti durante il processo di migrazione. Gli endpoint esistenti continueranno a servire il traffico senza interruzioni durante tutta la migrazione.
Ottenere lo script di migrazione:
git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration
Utilizzo:
./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)
Opzioni:
--cluster-name NAME— nome del cluster EKS (richiesto)--region REGION— AWS regione (richiesto)--helm-namespace NAMESPACE— Namespace in cui è installato Helm chart (impostazione predefinita: kube-system) (opzionale)--s3-mountpoint-role-arn ARN— ARN del ruolo IAM del driver S3 Mountpoint CSI (opzionale)--fsx-role-arn ARN— ARN del ruolo IAM del driver FSx CSI (opzionale)--auto-approve— Ignora le richieste di conferma se questo flag è abilitato.step-by-stepeauto-approvesi escludono a vicenda, se fornite,--auto-approvenon specificate (opzionale)--step-by-step--step-by-step— Fai una pausa dopo ogni passaggio principale per la revisione. Questo non dovrebbe essere menzionato se--auto-approveè già stato aggiunto (opzionale)--skip-dependencies-migration— Salta la migrazione delle Helm-installed dipendenze a. Add-on Perché le dipendenze NON sono state installate tramite il grafico Inference Operator Helm o se si desidera gestirle separatamente. (opzionale)
Esempi:
Migrazione di base (migra le dipendenze):
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1
Auto-approve senza istruzioni:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve
Salta la migrazione delle dipendenze per FSx, S3 mountpoint, cert manager e server Metrics:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration
Fornisci ruoli IAM S3 e FSx esistenti:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
Posizione di backup:
I backup sono archiviati in /tmp/hyperpod-migration-backup-<timestamp>/
I backup consentono la migrazione e il ripristino sicuri:
Rollback in caso di errore: se la migrazione fallisce, lo script può ripristinare automaticamente il cluster allo stato precedente alla migrazione utilizzando le configurazioni di backup
Audit Trail: fornisce una registrazione completa di ciò che esisteva prima della migrazione per la risoluzione dei problemi e la conformità
Riferimento alla configurazione: consente di confrontare le configurazioni precedenti e successive alla migrazione
Ripristino manuale: se necessario, è possibile ispezionare e ripristinare manualmente risorse specifiche dalla directory di backup
Ripristino:
Se la migrazione fallisce, lo script richiede la conferma dell'utente prima di avviare il rollback per ripristinare lo stato precedente.
SageMaker HyperPod Note sulla versione di Inference: v2.3
Cosa c'è di nuovo
Questa versione introduce nuovi campi opzionali nelle Custom Resource Definitions (CRD) per migliorare la flessibilità di configurazione della distribuzione.
Funzionalità
-
Tipi di istanze multiple
-
Maggiore affidabilità di implementazione: supporta configurazioni di tipo multiistanza con failover automatico su tipi di istanza alternativi quando le opzioni preferite non dispongono di capacità
-
Pianificazione intelligente delle risorse: utilizza l'affinità dei nodi Kubernetes per dare priorità ai tipi di istanze garantendo al contempo l'implementazione anche quando le risorse preferite non sono disponibili
-
Costi e prestazioni ottimizzati: mantiene le preferenze relative al tipo di istanza e previene i guasti legati alla capacità durante le fluttuazioni del cluster
-
Correzioni di bug
Le modifiche al campo invocationEndpoint nelle specifiche di ora avranno effetto: InferenceEndpointConfig
-
Se il
invocationEndpointcampo è patchato o aggiornato, le risorse dipendenti, come Load Balancer SageMaker ed EndpointSageMakerEndpointRegistration, verranno aggiornate con la normalizzazione.Ingress -
Il valore
invocationEndpointfornito verrà memorizzato così com'è nelle specifiche stesse.InferenceEndpointConfigQuando questo valore viene utilizzato per creare un Load Balancer e, se abilitato, un SageMaker Endpoint, verrà normalizzato in modo da avere una barra anteriore.-
v1/chat/completionsverrà normalizzato a/v1/chat/completionsfor theIngress, AWS Load Balancer ed Endpoint. SageMaker Per ilSageMakerEndpointRegistration, verrà visualizzato nelle sue specifiche come.v1/chat/completions -
///invokeverrà normalizzato a/invokefor theIngress, AWS Load Balancer ed Endpoint. SageMaker Per ilSageMakerEndpointRegistration, verrà visualizzato nelle sue specifiche come.invoke
-
Installazione di Helm:
Segui: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart
Se ti concentri solo sull'installazione dell'operatore di inferenza, dopo il passaggio 1, ad esempioSet Up Your Helm Environment, fallocd HyperPodHelmChart/charts/inference-operator. Poiché ti trovi nella stessa directory del grafico degli operatori di inferenza, nei comandi, ovunque tu vedahelm_chart/HyperPodHelmChart, sostituisci con. .
Aggiorna Operator alla versione 2.3 nel caso in cui sia già installato:
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3