Einreichung von Aufgaben mit MIG - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Einreichung von Aufgaben mit MIG

Verwenden von Kubernetes YAML

apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never

HyperPod CLI verwenden

Verwenden Sie die HyperPod CLI, um JumpStart Modelle mit MIG-Unterstützung bereitzustellen. Das folgende Beispiel zeigt die neuen CLI-Parameter für die GPU-Partitionierung:

# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default

Modellbereitstellung mit MIG

HyperPod Inference ermöglicht die Bereitstellung der Modelle auf MIG-Profilen über Studio Classic kubectl und HyperPod CLI. Um JumpStart Modelle auf bereitzustellenkubectl, CRDs müssen Felder aufgerufen werden, spec.server.acceleratorPartitionType um das Modell für das gewünschte MIG-Profil bereitzustellen. Wir führen Validierungen durch, um sicherzustellen, dass Modelle auf dem in der CRD ausgewählten MIG-Profil bereitgestellt werden können. Falls Sie die MIG-Validierungsprüfungen deaktivieren möchten, verwenden Sie to. spec.server.validations.acceleratorPartitionValidation False

JumpStart Modelle

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge

Modell von Amazon S3 bereitstellen mit InferenceEndpointConfig

InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell von Amazon S3 aus bereitzustellen. Um ein Modell auf MIG bereitzustellen, spec.worker.resources erwähnen Sie das MIG-Profil in requests undlimits. Im Folgenden wird eine einfache Bereitstellung beschrieben:

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Stellen Sie das Modell von FSx for Lustre bereit mit InferenceEndpointConfig

InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell FSx für Lustre bereitzustellen. Um ein Modell auf MIG bereitzustellen, spec.worker.resources erwähnen Sie das MIG-Profil in requests undlimits. Im Folgenden wird eine einfache Bereitstellung beschrieben:

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Verwenden der klassischen Benutzeroberfläche von Studio

Bereitstellen von JumpStart Modellen mit MIG

  1. Öffnen Sie Studio Classic und navigieren Sie zu JumpStart

  2. Suchen oder suchen Sie nach Ihrem gewünschten Modell (z. B. "DeepSeek„, „Lama“ usw.)

  3. Klicken Sie auf die Modellkarte und wählen Sie Bereitstellen

  4. In der Bereitstellungskonfiguration:

    • Wählen Sie HyperPodals Bereitstellungsziel

    • Wählen Sie Ihren MIG-fähigen Cluster aus der Drop-down-Liste aus

    • Unter Instance-Konfiguration:

      • Wählen Sie den Instanztyp aus (z. B.) ml.p4d.24xlarge

      • Wählen Sie den GPU-Partitionstyp aus den verfügbaren Optionen

      • Konfigurieren Sie die Einstellungen für die Anzahl der Instanzen und die automatische Skalierung

  5. Überprüfen Sie und klicken Sie auf Bereitstellen

  6. Überwachen Sie den Bereitstellungsfortschritt im Bereich Endpoints

Optionen für die Modellkonfiguration

Endpunkt-Einstellungen:

  • Endpunktname — Eindeutiger Bezeichner für Ihre Bereitstellung

  • Variantenname — Konfigurationsvariante (Standard: AllTraffic)

  • Instanztyp — Muss die GPU-Partition (P-Serie) unterstützen

  • MIG-Profil — GPU-Partition

  • Anfängliche Anzahl der Instanzen — Anzahl der bereitzustellenden Instanzen

  • Automatische Skalierung — Aktiviert die dynamische Skalierung auf der Grundlage des Datenverkehrs

Erweiterte Konfiguration:

  • Speicherort der Modelldaten — Amazon S3 S3-Pfad für benutzerdefinierte Modelle

  • Container-Image — Benutzerdefinierter Inferenzcontainer (optional)

  • Umgebungsvariablen — Modellspezifische Konfigurationen

  • Amazon VPC-Konfiguration — Einstellungen für die Netzwerkisolierung

Überwachung der eingesetzten Modelle

  1. Navigieren Sie zu Studio Classic > Bereitstellungen > Endpoints

  2. Wählen Sie Ihren MIG-fähigen Endpunkt aus

  3. Sehen Sie sich unter anderem folgende Kennzahlen an:

    • MIG-Nutzung — Nutzung pro GPU-Partition

    • Speicherverbrauch — Pro GPU-Partition

    • Inferenzlatenz — Verarbeitungszeit der Anfrage

    • Durchsatz — Anfragen pro Sekunde

  4. CloudWatch Amazon-Alarme für die automatische Überwachung einrichten

  5. Konfigurieren Sie Richtlinien für die auto-scaling auf der Grundlage der MIG-Nutzung

HyperPod CLI verwenden

JumpStart Einsatz

Der HyperPod JumpStart CLI-Befehl enthält zwei neue Felder für die MIG-Unterstützung:

  • --accelerator-partition-type- Spezifiziert die MIG-Konfiguration (z. B. mig-4g.20gb)

  • --accelerator-partition-validation- Überprüft die Kompatibilität zwischen Modellen und MIG-Profil (Standard: true)

hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/

Bereitstellung benutzerdefinierter Endgeräte

Verwenden Sie für die Bereitstellung über einen benutzerdefinierten Endpunkt die vorhandenen Felder --resources-requests und aktivieren --resources-limits Sie die MIG-Profilfunktion:

hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'