Versionshinweise SageMaker HyperPod zu Amazon Inference

Dieses Thema behandelt Versionshinweise, in denen Updates, Korrekturen und neue Funktionen für Amazon SageMaker HyperPod Inference nachverfolgt werden. SageMaker HyperPod Mit Inference können Sie Modelle für maschinelles Lernen auf Ihren HyperPod Clustern bereitstellen und skalieren — und das mit Zuverlässigkeit auf Unternehmensebene. Allgemeine Versionen, Updates und Verbesserungen der SageMaker HyperPod Amazon-Plattform finden Sie unterSageMaker HyperPod Versionshinweise von Amazon.

Informationen zu den Funktionen und Bereitstellungsoptionen von SageMaker HyperPod Inference finden Sie unterModelle auf Amazon bereitstellen SageMaker HyperPod.

SageMaker HyperPod Versionshinweise zu Inference: v3.2

Datum der Veröffentlichung: 12. Juni 2026

Übersicht

Mit Inference Operator v3.2 können Kunden LLMs mit langem Kontext (wie Llama 3.3 70B) mit vorhersehbarer Latenz pro Token bei gleichzeitiger Last bereitstellen. Mit der neuen Version wird Disaggregated Prefill and Decode (DPD) eingeführt. Dabei werden die rechnergebundene Vorausfüllphase und die an die Speicherbandbreite gebundene Dekodierungsphase auf verschiedene GPU-Pools aufgeteilt und der KV-Cache zwischen diesen über EFA mit RDMA übertragen. GPU-Direct DPD reduziert die Latenz pro Token, erhöht den Durchsatz und ermöglicht es Ihnen, die Kapazität zum Vorfüllen und Dekodieren unabhängig voneinander zu skalieren. Neben DPD enthalten wir in dieser Version weitere Bugfixes.

Die wichtigsten Funktionen

Disaggregiertes Vorfüllen und Dekodieren (DPD)

Der InferenceEndpointConfig CRD wurde ein neues pdSpec Feld hinzugefügt, das disaggregierte Inferenzen ermöglicht. Wenn diese pdSpec Option aktiviert ist, stellt der Betreiber separate Prefill- und Decoder-Pods bereit, verkabelt sie über den DPD-Router miteinander und überträgt den KV-Cache zwischen ihnen mithilfe von LMCache über NIXL und EFA mit RDMA. GPU-Direct Zu den konfigurierbaren Feldern gehören beispielsweise (weitere Konfigurationen finden Sie im Benutzerhandbuch):
- routingThreshold— Token-length Schwellenwert, ab dem Anfragen den disaggregierten Pfad verwenden. Unterhalb des Schwellenwerts umgehen Anfragen den Prefiller und werden direkt an den Decoder weitergeleitet.
- prefillSpec.argsund decodingSpec.args — Per-role vLLM-Flags wurden beim Start zusammengeführt. worker.args
- prefillSpec.replicasund decodingSpec.replicas — Skalieren Sie die Kapazität für das Vorfüllen und Dekodieren unabhängig voneinander, um sie an die Längenverteilung der Eingabe und Ausgabe Ihres Workloads anzupassen.
Voraussetzung
- Um DPD-Endpunkte bereitzustellen, müssen Ihre Clusterknoten EFA mit RDMA-Lese- und Schreibzugriff unterstützen und sich in derselben Availability Zone für die Kommunikation von Knoten zu Knoten mit hoher Bandbreite befinden.
- Empfohlene Instanzfamilien:,,,. ml.p5.48xlarge ml.p5e.48xlarge ml.p5en.48xlarge ml.p6-b200.48xlarge ml.p6-b300.48xlarge

Fehlerbehebungen

Operator-Scheduling auf x86-Knoten — Das Operator-Deployment verwendet jetzt nur noch die Planung nodeAffinity auf AMD64-Linux-Knoten.
Wir fügen weitere kleinere und sicherheitstechnische Korrekturen hinzu.

Führen Sie ein Upgrade auf Version 3.2 durch

Helm-Upgrade:

Wenn Sie den Inference Operator bereits über Helm installiert haben, verwenden Sie die folgenden Befehle für das Upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.2

# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Add-on EKS-Upgrade:

Wenn Sie den Inference Operator als EKS installiert haben Add-on, führen Sie ein Upgrade auf die neueste Version durch:


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.3.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

SageMaker HyperPod Versionshinweise zu Inference: v3.1.2

Datum der Veröffentlichung: 6. Mai 2026

Übersicht

Inference Operator v3.1.2 bietet Inferenzdatenerfassung für die Protokollierung des Endpunktverkehrs, HuggingFace Hub-Integration für die direkte Modellbereitstellung, Route 53 53-DNS-Management für benutzerdefinierte Domänen, lokale NVMe-Modellbereitstellung für reduzierte Kaltstartlatenz und benutzerdefinierte Dienstkonten mit IRSA-Unterstützung.

Neue Funktionen

Erfassung von Inferenzdaten — Zeichnet Eingaben und Ausgaben an drei Erfassungspunkten auf: SageMaker KI-Endpunkt, Load Balancer (ALB-Zugriffsprotokolle) und Model-Pod. Aktivieren Sie eine beliebige Kombination über dataCapture in Ihrer CRD. Siehe Datenerfassung für Rückschlüsse auf HyperPod.
HuggingFace Modellquelle — Stellen Sie Modelle direkt von HuggingFace Hub aus bereit, ohne sie vorab auf S3 oder FSx bereitstellen zu müssen. Unterstützt Gated Models viatokenSecretRef, Revisions-Pinning via und Token-IsolierungcommitSHA. Kompatibel mit VllM-, TGI- und SGlang-Laufzeiten. Siehe Stellen Sie mit kubectl Modelle von Amazon S3, Amazon FSx oder Hugging Face Hub bereit.
Route 53 DNS Management — Automatische Erstellung und Verwaltung von DNS-Einträgen für benutzerdefinierte Domains überdnsConfig. Siehe Benutzerdefinierte Zertifikate und Route 53 53-DNS-Management für HyperPod Inference.
Bereitstellung des lokalen NVMe-Modells — Laden Sie Modellgewichte aus dem knotenlokalen NVMe-Speicher über, um die Kaltstartlatenz modelSourceType: kubernetesVolume zu reduzieren. Unterstützt Fallback auf S3. Siehe Stellen Sie mit kubectl Modelle aus dem lokalen NVMe-Speicher bereit.
Benutzerdefinierte Dienstkonten — Weisen Sie Inferenz-Pods benutzerdefinierte Konten ServiceAccounts mit IRSA-Unterstützung zu. spec.kubernetes.serviceAccountName

Fehlerbehebungen

Tag-Weitergabe — User-defined aktivierte Tags werden InferenceEndpointConfig jetzt korrekt an die SageMakerEndpointRegistration CRD- und nachgeschaltete KI-Ressourcen weitergegeben. SageMaker Bisher wurden Tags bei der Erstellung oder Aktualisierung der Endpunktregistrierung nicht weitergegeben.
Automatische Skalierung der Replikatkonservierung — Es wurde ein Problem behoben, bei dem durch die Aktualisierung eines InferenceEndpointConfig oder JumpStartModel CR die Replikatanzahl auf den Spezifikationswert zurückgesetzt wurde, wodurch die aktuelle Replikatanzahl überschrieben wurde. HPA/KEDA-managed Der Operator behält jetzt die Anzahl der aktiven Replikate bei CR-Aktualisierungen bei.
Automatische Skalierung der CRD-Validierung — Es wurde ein Fehler behobenprometheusTrigger.serverAddress, der fälschlicherweise ein abschließendes Pfadsegment erforderte, was zu 404-Fehlern führte, wenn KEDA an die AMP-Workspace-URL angehängt wurde. /api/v1/query
Zertifikatsrotation — Fehler behoben, bei dem die benutzerdefinierte Zertifikatsrotation nach dem Neustart des Operator-Pods nicht an ALB weitergegeben wurde.

Führen Sie ein Upgrade auf Version 3.1.2 durch

Helm-Upgrade:

Wenn Sie den Inference Operator bereits über Helm installiert haben, verwenden Sie die folgenden Befehle für das Upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Add-on EKS-Upgrade:

Wenn Sie den Inference Operator als EKS installiert haben Add-on, führen Sie ein Upgrade auf die neueste Version durch.

Prüfen Sie zunächst, ob dies bereits in Ihrer Add-On-Konfiguration enthalten hyperpodClusterArn ist:


CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .

Wenn in der Ausgabe vorhanden hyperpodClusterArn ist, führen Sie den folgenden Befehl aus, um das Upgrade durchzuführen:


aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION

Falls nicht hyperpodClusterArn vorhanden, rufen Sie die aktuelle Konfiguration ab, fügen Sie sie hinzu und führen Sie ein Upgrade durch:


HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION

Warten Sie, bis das Add-on aktiv ist, bevor Sie Modelle bereitstellen.

SageMaker HyperPod Versionshinweise zu Inference: v3.1

Datum der Veröffentlichung: 3. April 2026

Übersicht

Inference Operator v3.1 führt eine benutzerdefinierte Kubernetes-Pod-Konfiguration, benutzerdefinierte Zertifikatsunterstützung und Limits für Anfragen pro Pod ein.

Die wichtigsten Funktionen

Benutzerdefinierte Kubernetes-Pod-Konfiguration — Der InferenceEndpointConfig CRD wurde ein neues kubernetes Feld hinzugefügt, mit dem Benutzer Inferenz-Pod-Konfigurationen anpassen können:
- Benutzerdefinierte Init-Container — Führen Sie benutzerdefinierte Init-Container aus, bevor der Inferenzserver gestartet wird (z. B. Cache-Warming, GDS-Setup). Init-Container werden nach dem Prefetch-Container des Operators eingefügt.
- Benutzerdefinierte Volumes — Fügen Sie der Pod-Spezifikation zusätzliche Volumes (emptyDirhostPathconfigMap,, usw.) hinzu, auf die Init-Container über verweisen können. volumeMounts
- Benutzerdefinierter Scheduler-Name — Geben Sie einen benutzerdefinierten Kubernetes-Scheduler für die Pod-Platzierung an.
Benutzerdefinierte Zertifikate — Verwenden Sie Ihre eigenen ACM-Zertifikate für Inferenzendpunkte anstelle von vom Betreiber generierten, selbstsignierten Zertifikaten, die über konfiguriert werden. customCertificateConfig Unterstützt öffentlich vertrauenswürdige ACM-Zertifikate, AWS private CA-Zertifikate und Zertifikate, die von externen Zertifizierungsstellen importiert wurden. Der Betreiber überwacht den Zustand der Zertifikate und unterstützt die automatische Erkennung von Verlängerungen.
Anforderungslimits — Steuern Sie die Bearbeitung von Anfragen pro Pod über die neue RequestLimits Konfiguration unter Worker mit den folgenden konfigurierbaren Feldern:
- maxConcurrentRequests— Maximale Anzahl gleichzeitiger In-Flight-Anfragen pro Pod.
- maxQueueSize— Anfragen werden in die Warteschlange gestellt, wenn das Parallelitätslimit erreicht ist, bevor sie abgelehnt werden.
- overflowStatusCode— HTTP-Statuscode, der zurückgegeben wird, wenn die Grenzwerte überschritten werden (Standard: 429).

Detaillierte Informationen, einschließlich Voraussetzungen und Upgrade-Anweisungen, finden Sie in den folgenden Abschnitten.

Voraussetzungen

Um die Funktion „Benutzerdefinierte Zertifikate“ zu verwenden, fügen Sie Ihrer Ausführungsrolle „Inference Operator“ die folgenden Berechtigungen hinzu:


{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}

Führen Sie ein Upgrade auf Version 3.1 durch

Wenn Sie den Inference Operator bereits über Helm installiert haben, verwenden Sie die folgenden Befehle für das Upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

SageMaker HyperPod Versionshinweise zu Inference: v3.0

Datum der Veröffentlichung: 23. Februar 2026

Übersicht

Inference Operator 3.0 führt die Add-on EKS-Integration für ein vereinfachtes Lebenszyklusmanagement, Node Affinity-Unterstützung für eine detaillierte Planungssteuerung und eine verbesserte Ressourcen-Tagging ein. Bestehende Helm-based Installationen können Add-on mithilfe des mitgelieferten Migrationsskripts auf das EKS migriert werden. Aktualisieren Sie Ihre Ausführungsrolle „Inference Operator“ vor dem Upgrade mit neuen Tagging-Berechtigungen.

Die wichtigsten Funktionen

Add-on EKS-Integration — Enterprise-grade Lebenszyklusmanagement mit vereinfachter Installationserfahrung
Node Affinity — Präzise Planungssteuerung zum Ausschluss von Spot-Instances, zum Bevorzugen von Availability Zones oder zum Targeting von Knoten mit benutzerdefinierten Labels

Detaillierte Informationen, einschließlich Voraussetzungen, Upgrade-Anweisungen und Migrationshinweise, finden Sie in den folgenden Abschnitten.

Voraussetzungen

Vor dem Upgrade der Helm-Version auf 3.0 sollten Kunden ihrer Rolle als Inference-Operator Execution zusätzliche Tagging-Berechtigungen hinzufügen. Im Rahmen der Verbesserung von Ressourcen-Tagging und Sicherheit kennzeichnet der Inference Operator jetzt ALB-, S3- und ACM-Ressourcen. Für diese Erweiterung sind zusätzliche Berechtigungen in der Ausführungsrolle „Inference Operator“ erforderlich. Fügen Sie Ihrer Ausführungsrolle „Inference Operator“ die folgenden Berechtigungen hinzu:


{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}

Führen Sie ein Upgrade auf Version 3.0 durch

Wenn Sie den Inference Operator bereits über Helm installiert haben, verwenden Sie die folgenden Befehle für das Upgrade:


helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'

Migration von Helm zu EKS Add-on

Wenn Inference Operator vor Version 3.0 über Helm installiert wurde, empfehlen wir, zu EKS zu migrieren, Add-on um rechtzeitig über die neuen Funktionen informiert zu werden, die für Inference Operator veröffentlicht werden. Dieses Skript migriert den SageMaker HyperPod Inference Operator von Helm-based der Installation zur EKS-Installation. Add-on

Überblick: Das Skript verwendet einen Clusternamen und eine Region als Parameter, ruft die bestehende Helm-Installationskonfiguration ab und migriert zur EKS-Bereitstellung. Add-on Es erstellt neue IAM-Rollen für den Inference Operator, den ALB-Controller und den KEDA-Operator.

Vor der Migration des Inferenzoperators stellt das Skript sicher, dass die erforderlichen Abhängigkeiten (S3 CSI-Treiber, FSx CSI-Treiber, cert-manager und metrics-server) existieren. Wenn sie nicht existieren, werden sie als bereitgestellt. Add-on

Nach Abschluss der Inference Add-on Operator-Migration migriert das Skript auch S3, FSx und andere Abhängigkeiten (ALB, KEDA, cert-manager, metrics-server), sofern sie ursprünglich über das Inference Operator-Helm-Diagramm installiert wurden. Verwenden Sie diese --skip-dependencies-migration Option, um diesen Schritt für den S3 CSI-Treiber, den FSx CSI-Treiber, den Cert-Manager und den Metrics-Server zu überspringen. Beachten Sie, dass ALB und KEDA als Teil von Add-on im selben Namespace wie Inference Operator installiert werden und als Teil des Inference Operators migriert werden. Add-on

Wichtig

Stellen Sie während der Migration keine neuen Modelle bereit, da diese erst bereitgestellt werden, wenn die Migration abgeschlossen ist. Sobald sich der Inferenzoperator im Status AKTIV Add-on befindet, können neue Modelle bereitgestellt werden. Die Migration dauert in der Regel 15 bis 20 Minuten und kann innerhalb von 30 Minuten abgeschlossen sein, wenn derzeit nur wenige Modelle eingesetzt werden.

Voraussetzungen für die Migration:

AWS CLI mit den entsprechenden Anmeldeinformationen konfiguriert
kubectl ist mit Zugriff auf Ihren EKS-Cluster konfiguriert
Helm installiert
Bestehende Helm-Installation des Hyperpod-Inferenz-Operators

Anmerkung

Endgeräte, die bereits laufen, werden während des Migrationsprozesses nicht unterbrochen. Bestehende Endgeräte werden den Datenverkehr während der gesamten Migration weiterhin unterbrechungsfrei bereitstellen.

Abrufen des Migrationsskripts:


git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration

Verwendung:


./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)

Optionen:

--cluster-name NAME— Name des EKS-Clusters (erforderlich)
--region REGION— AWS Region (erforderlich)
--helm-namespace NAMESPACE— Namespace, in dem Helm Chart installiert ist (Standard: kube-system) (optional)
--s3-mountpoint-role-arn ARN— S3 Mountpoint CSI-Treiber, IAM-Rolle ARN (optional)
--fsx-role-arn ARN— FSx CSI-Treiber, IAM-Rolle ARN (optional)
--auto-approve— Überspringe Bestätigungsaufforderungen, wenn dieses Flag aktiviert ist. step-by-stepund schließen auto-approve sich gegenseitig aus, falls --auto-approve angegeben, bitte nicht angeben --step-by-step (optional)
--step-by-step— Machen Sie nach jedem wichtigen Schritt eine Pause zur Überprüfung. Dies sollte nicht erwähnt werden, wenn --auto-approve es bereits hinzugefügt wurde (optional)
--skip-dependencies-migration— Überspringe die Migration von Helm-installed Abhängigkeiten zu Add-on. Denn Abhängigkeiten wurden NICHT über das Inference Operator Helm-Diagramm installiert, oder wenn Sie sie separat verwalten möchten. (optional)

Beispiele:

Grundlegende Migration (migriert Abhängigkeiten):


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1

Auto-approve ohne Eingabeaufforderungen:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve

Überspringen Sie die Abhängigkeitsmigration für FSx, S3 Mountpoint, Cert Manager und Metrics Server:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration

Stellen Sie bestehende S3- und FSx-IAM-Rollen bereit:


./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role

Backup-Speicherort:

Backups werden gespeichert in /tmp/hyperpod-migration-backup-<timestamp>/

Backups ermöglichen eine sichere Migration und Wiederherstellung:

Rollback bei einem Fehler — Wenn die Migration fehlschlägt, kann das Skript Ihren Cluster mithilfe der gesicherten Konfigurationen automatisch auf den Zustand vor der Migration zurücksetzen
Audit Trail — Bietet eine vollständige Aufzeichnung dessen, was vor der Migration vorhanden war, zur Problembehandlung und Einhaltung von Vorschriften
Konfigurationsreferenz — Ermöglicht den Vergleich von Konfigurationen vor und nach der Migration
Manuelle Wiederherstellung — Bei Bedarf können Sie bestimmte Ressourcen aus dem Backup-Verzeichnis manuell überprüfen und wiederherstellen

Rollback:

Wenn die Migration fehlschlägt, fordert das Skript den Benutzer zur Bestätigung auf, bevor ein Rollback initiiert wird, um den vorherigen Status wiederherzustellen.

SageMaker HyperPod Versionshinweise zu Inference: v2.3

Was ist neu

In dieser Version werden neue optionale Felder in den benutzerdefinierten Ressourcendefinitionen (CRDs) eingeführt, um die Flexibilität der Bereitstellungskonfiguration zu erhöhen.

Funktionen

Typen mit mehreren Instanzen
- Verbesserte Zuverlässigkeit bei der Bereitstellung — Unterstützt Konfigurationen mit mehreren Instanzen und automatischem Failover auf alternative Instance-Typen, wenn die bevorzugten Optionen nicht genügend Kapazität haben
- Intelligente Ressourcenplanung — Nutzt die Kubernetes-Knotenaffinität, um Instanztypen zu priorisieren und gleichzeitig die Bereitstellung zu gewährleisten, auch wenn bevorzugte Ressourcen nicht verfügbar sind
- Optimierte Kosten und Leistung — Behält Ihre Instance-Typpräferenzen bei und verhindert kapazitätsbedingte Ausfälle bei Cluster-Fluktuationen

Fehlerbehebungen

Änderungen am Feld invocationEndpoint in der Spezifikation von InferenceEndpointConfig werden nun wirksam:

Wenn das invocationEndpoint Feld gepatcht oder aktualisiert wird, werden abhängige Ressourcen wie Load Balancer und SageMaker Endpoint mit der Normalisierung aktualisiert. Ingress SageMakerEndpointRegistration
Der invocationEndpoint angegebene Wert wird unverändert in der Spezifikation selbst gespeichert. InferenceEndpointConfig Wenn dieser Wert verwendet wird, um einen Load Balancer und — falls aktiviert — einen SageMaker Endpoint zu erstellen, wird er normalisiert, sodass er einen vorangestellten Schrägstrich hat.
- v1/chat/completionswird /v1/chat/completions für AWS Load Balancer und SageMaker Endpoint normalisiert. Ingress Für den SageMakerEndpointRegistration wird es in seiner Spezifikation als angezeigt. v1/chat/completions
- ///invokewird /invoke für AWS Load Balancer und SageMaker Endpoint normalisiert. Ingress Für den SageMakerEndpointRegistration wird es in seiner Spezifikation als angezeigt. invoke

Helm installieren:

Folgen Sie: https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart

Wenn Sie sich darauf konzentrieren, nur den Inferenzoperator zu installierenSet Up Your Helm Environment, tun Sie dies cd HyperPodHelmChart/charts/inference-operator nach Schritt 1. Da Sie sich im Verzeichnis der Inferenzoperatordiagramme selbst befinden, ersetzen Sie in den Befehlen, wo immer Sie sie sehenhelm_chart/HyperPodHelmChart, durch. .

Führen Sie ein Upgrade von Operator auf Version 2.3 durch, falls es bereits installiert ist:


cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

KV-Caching und intelligentes Routing

Referenz zu Cluster-Ereignissen