Verwenden von Kubernetes YAML HyperPod CLI verwenden Modellbereitstellung mit MIG HyperPod CLI verwenden

Einreichung von Aufgaben mit MIG

Themen

Verwenden von Kubernetes YAML
HyperPod CLI verwenden
Modellbereitstellung mit MIG
HyperPod CLI verwenden

Verwenden von Kubernetes YAML


apiVersion: batch/v1
kind: Job
metadata:
  name: mig-job
  namespace: default
spec:
  template:
    spec:
      containers:
      - name: pytorch
        image: pytorch/pytorch:latest
        resources:
          requests:
            nvidia.com/mig-1g.5gb: 1
            cpu: "100m"
            memory: "128Mi"
          limits:
            nvidia.com/mig-1g.5gb: 1
      restartPolicy: Never

HyperPod CLI verwenden

Verwenden Sie die HyperPod CLI, um JumpStart Modelle mit MIG-Unterstützung bereitzustellen. Das folgende Beispiel zeigt die neuen CLI-Parameter für die GPU-Partitionierung:


# Deploy JumpStart model with MIG
hyp create hyp-jumpstart-endpoint \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p5.48xlarge \
  --accelerator-partition-type mig-2g.10gb \
  --accelerator-partition-validation True \
  --endpoint-name my-endpoint \
  --tls-certificate-output-s3-uri s3://certificate-bucket/ \
  --namespace default

Modellbereitstellung mit MIG

HyperPod Inference ermöglicht die Bereitstellung der Modelle auf MIG-Profilen über Studio Classic kubectl und HyperPod CLI. Um JumpStart Modelle auf bereitzustellenkubectl, CRDs müssen Felder aufgerufen werden, spec.server.acceleratorPartitionType um das Modell für das gewünschte MIG-Profil bereitzustellen. Wir führen Validierungen durch, um sicherzustellen, dass Modelle auf dem in der CRD ausgewählten MIG-Profil bereitgestellt werden können. Falls Sie die MIG-Validierungsprüfungen deaktivieren möchten, verwenden Sie spec.server.validations.acceleratorPartitionValidation False

JumpStart Modelle


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: JumpStartModel
metadata:
  name: deepseek-model
  namespace: default
spec:
  sageMakerEndpoint:
    name: deepseek-endpoint
  model:
    modelHubName: SageMakerPublicHub
    modelId: deepseek-llm-r1-distill-qwen-1-5b
  server:
    acceleratorPartitionType: mig-7g.40gb
    instanceType: ml.p4d.24xlarge

Modell von Amazon S3 bereitstellen mit InferenceEndpointConfig

InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell von Amazon S3 aus bereitzustellen. Um ein Modell auf MIG bereitzustellen, spec.worker.resources erwähnen Sie das MIG-Profil in requests undlimits. Im Folgenden wird eine einfache Bereitstellung beschrieben:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: my-model-bucket
      region: us-east-2
    modelLocation: model-path
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Stellen Sie das Modell von FSx for Lustre bereit mit InferenceEndpointConfig

InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell FSx für Lustre bereitzustellen. Um ein Modell auf MIG bereitzustellen, spec.worker.resources erwähnen Sie das MIG-Profil in requests undlimits. Im Folgenden wird eine einfache Bereitstellung beschrieben:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: fsx
    fsxStorage:
      fileSystemId: fs-xxxxx
    modelLocation: location-on-fsx
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Verwenden der klassischen Benutzeroberfläche von Studio

Bereitstellen von JumpStart Modellen mit MIG

Öffnen Sie Studio Classic und navigieren Sie zu JumpStart
Suchen oder suchen Sie nach Ihrem gewünschten Modell (z. B. "DeepSeek„, „Lama“ usw.)
Klicken Sie auf die Modellkarte und wählen Sie Bereitstellen
In der Bereitstellungskonfiguration:
- Wählen Sie HyperPodals Bereitstellungsziel
- Wählen Sie Ihren MIG-fähigen Cluster aus der Dropdownliste aus
- Unter Instance-Konfiguration:
  - Wählen Sie den Instanztyp aus (z. B.) ml.p4d.24xlarge
  - Wählen Sie den GPU-Partitionstyp aus den verfügbaren Optionen
  - Konfigurieren Sie die Einstellungen für die Anzahl der Instanzen und die automatische Skalierung
Überprüfen Sie und klicken Sie auf Bereitstellen
Überwachen Sie den Bereitstellungsfortschritt im Bereich Endpoints

Optionen für die Modellkonfiguration

Endpunkt-Einstellungen:

Endpunktname — Eindeutiger Bezeichner für Ihre Bereitstellung
Variantenname — Konfigurationsvariante (Standard: AllTraffic)
Instanztyp — Muss die GPU-Partition (P-Serie) unterstützen
MIG-Profil — GPU-Partition
Anfängliche Anzahl der Instanzen — Anzahl der bereitzustellenden Instanzen
Automatische Skalierung — Aktiviert die dynamische Skalierung auf der Grundlage des Datenverkehrs

Erweiterte Konfiguration:

Speicherort der Modelldaten — Amazon S3 S3-Pfad für benutzerdefinierte Modelle
Container-Image — Benutzerdefinierter Inferenzcontainer (optional)
Umgebungsvariablen — Modellspezifische Konfigurationen
Amazon VPC-Konfiguration — Einstellungen für die Netzwerkisolierung

Überwachung der eingesetzten Modelle

Navigieren Sie zu Studio Classic > Bereitstellungen > Endpoints
Wählen Sie Ihren MIG-fähigen Endpunkt aus
Sehen Sie sich unter anderem folgende Kennzahlen an:
- MIG-Nutzung — Nutzung pro GPU-Partition
- Speicherverbrauch — Pro GPU-Partition
- Inferenzlatenz — Verarbeitungszeit der Anfrage
- Durchsatz — Anfragen pro Sekunde
CloudWatch Amazon-Alarme für die automatische Überwachung einrichten
Konfigurieren Sie Richtlinien für die auto-scaling auf der Grundlage der MIG-Nutzung

HyperPod CLI verwenden

JumpStart Einsatz

Der HyperPod JumpStart CLI-Befehl enthält zwei neue Felder für die MIG-Unterstützung:

--accelerator-partition-type- Spezifiziert die MIG-Konfiguration (z. B. mig-4g.20gb)
--accelerator-partition-validation- Überprüft die Kompatibilität zwischen Modellen und MIG-Profil (Standard: true)


hyp create hyp-jumpstart-endpoint \
  --version 1.1 \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p4d.24xlarge \
  --endpoint-name js-test \
  --accelerator-partition-type "mig-4g.20gb" \
  --accelerator-partition-validation true \
  --tls-certificate-output-s3-uri s3://my-bucket/certs/

Bereitstellung benutzerdefinierter Endgeräte

Verwenden Sie für die Bereitstellung über einen benutzerdefinierten Endpunkt die vorhandenen Felder --resources-requests und aktivieren --resources-limits Sie die MIG-Profilfunktion:


hyp create hyp-custom-endpoint \
  --namespace default \
  --metadata-name deepseek15b-mig-10-14-v2 \
  --endpoint-name deepseek15b-mig-endpoint \
  --instance-type ml.p4d.24xlarge \
  --model-name deepseek15b-mig \
  --model-source-type s3 \
  --model-location deep-seek-15b \
  --prefetch-enabled true \
  --tls-certificate-output-s3-uri s3://sagemaker-bucket \
  --image-uri lmcache/vllm-openai:v0.3.7 \
  --container-port 8080 \
  --model-volume-mount-path /opt/ml/model \
  --model-volume-mount-name model-weights \
  --s3-bucket-name model-storage-123456789 \
  --s3-region us-east-2 \
  --invocation-endpoint invocations \
  --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \
  --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \
  --env '{
    "OPTION_ROLLING_BATCH":"vllm",
    "SERVING_CHUNKED_READ_TIMEOUT":"480",
    "DJL_OFFLINE":"true",
    "NUM_SHARD":"1",
    "SAGEMAKER_PROGRAM":"inference.py",
    "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code",
    "MODEL_CACHE_ROOT":"/opt/ml/model",
    "SAGEMAKER_MODEL_SERVER_WORKERS":"1",
    "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600",
    "OPTION_TRUST_REMOTE_CODE":"true",
    "OPTION_ENABLE_REASONING":"true",
    "OPTION_REASONING_PARSER":"deepseek_r1",
    "SAGEMAKER_CONTAINER_LOG_LEVEL":"20",
    "SAGEMAKER_ENV":"1"
  }'

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Lebenszyklus eines Knotens

Cluster-Ausfallsicherheit