Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Einreichung von Aufgaben mit MIG
Themen
Verwenden von Kubernetes YAML
apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never
HyperPod CLI verwenden
Verwenden Sie die HyperPod CLI, um JumpStart Modelle mit MIG-Unterstützung bereitzustellen. Das folgende Beispiel zeigt die neuen CLI-Parameter für die GPU-Partitionierung:
# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-namemy-endpoint\ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default
Modellbereitstellung mit MIG
HyperPod Inference ermöglicht die Bereitstellung der Modelle auf MIG-Profilen über Studio Classic kubectl und HyperPod CLI. Um JumpStart Modelle auf bereitzustellenkubectl, CRDs müssen Felder aufgerufen werden, spec.server.acceleratorPartitionType um das Modell für das gewünschte MIG-Profil bereitzustellen. Wir führen Validierungen durch, um sicherzustellen, dass Modelle auf dem in der CRD ausgewählten MIG-Profil bereitgestellt werden können. Falls Sie die MIG-Validierungsprüfungen deaktivieren möchten, verwenden Sie to. spec.server.validations.acceleratorPartitionValidation False
JumpStart Modelle
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge
Modell von Amazon S3 bereitstellen mit InferenceEndpointConfig
InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell von Amazon S3 aus bereitzustellen. Um ein Modell auf MIG bereitzustellen, spec.worker.resources erwähnen Sie das MIG-Profil in requests undlimits. Im Folgenden wird eine einfache Bereitstellung beschrieben:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName:my-model-bucketregion:us-east-2modelLocation:model-pathworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Stellen Sie das Modell von FSx for Lustre bereit mit InferenceEndpointConfig
InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell FSx für Lustre bereitzustellen. Um ein Modell auf MIG bereitzustellen, spec.worker.resources erwähnen Sie das MIG-Profil in requests undlimits. Im Folgenden wird eine einfache Bereitstellung beschrieben:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId:fs-xxxxxmodelLocation:location-on-fsxworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Verwenden der klassischen Benutzeroberfläche von Studio
Bereitstellen von JumpStart Modellen mit MIG
-
Öffnen Sie Studio Classic und navigieren Sie zu JumpStart
-
Suchen oder suchen Sie nach Ihrem gewünschten Modell (z. B. "DeepSeek„, „Lama“ usw.)
-
Klicken Sie auf die Modellkarte und wählen Sie Bereitstellen
-
In der Bereitstellungskonfiguration:
-
Wählen Sie HyperPodals Bereitstellungsziel
-
Wählen Sie Ihren MIG-fähigen Cluster aus der Drop-down-Liste aus
-
Unter Instance-Konfiguration:
-
Wählen Sie den Instanztyp aus (z. B.)
ml.p4d.24xlarge -
Wählen Sie den GPU-Partitionstyp aus den verfügbaren Optionen
-
Konfigurieren Sie die Einstellungen für die Anzahl der Instanzen und die automatische Skalierung
-
-
-
Überprüfen Sie und klicken Sie auf Bereitstellen
-
Überwachen Sie den Bereitstellungsfortschritt im Bereich Endpoints
Optionen für die Modellkonfiguration
Endpunkt-Einstellungen:
-
Endpunktname — Eindeutiger Bezeichner für Ihre Bereitstellung
-
Variantenname — Konfigurationsvariante (Standard: AllTraffic)
-
Instanztyp — Muss die GPU-Partition (P-Serie) unterstützen
-
MIG-Profil — GPU-Partition
-
Anfängliche Anzahl der Instanzen — Anzahl der bereitzustellenden Instanzen
-
Automatische Skalierung — Aktiviert die dynamische Skalierung auf der Grundlage des Datenverkehrs
Erweiterte Konfiguration:
-
Speicherort der Modelldaten — Amazon S3 S3-Pfad für benutzerdefinierte Modelle
-
Container-Image — Benutzerdefinierter Inferenzcontainer (optional)
-
Umgebungsvariablen — Modellspezifische Konfigurationen
-
Amazon VPC-Konfiguration — Einstellungen für die Netzwerkisolierung
Überwachung der eingesetzten Modelle
-
Navigieren Sie zu Studio Classic > Bereitstellungen > Endpoints
-
Wählen Sie Ihren MIG-fähigen Endpunkt aus
-
Sehen Sie sich unter anderem folgende Kennzahlen an:
-
MIG-Nutzung — Nutzung pro GPU-Partition
-
Speicherverbrauch — Pro GPU-Partition
-
Inferenzlatenz — Verarbeitungszeit der Anfrage
-
Durchsatz — Anfragen pro Sekunde
-
-
CloudWatch Amazon-Alarme für die automatische Überwachung einrichten
-
Konfigurieren Sie Richtlinien für die auto-scaling auf der Grundlage der MIG-Nutzung
HyperPod CLI verwenden
JumpStart Einsatz
Der HyperPod JumpStart CLI-Befehl enthält zwei neue Felder für die MIG-Unterstützung:
-
--accelerator-partition-type- Spezifiziert die MIG-Konfiguration (z. B. mig-4g.20gb) -
--accelerator-partition-validation- Überprüft die Kompatibilität zwischen Modellen und MIG-Profil (Standard: true)
hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uris3://my-bucket/certs/
Bereitstellung benutzerdefinierter Endgeräte
Verwenden Sie für die Bereitstellung über einen benutzerdefinierten Endpunkt die vorhandenen Felder --resources-requests und aktivieren --resources-limits Sie die MIG-Profilfunktion:
hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket\ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-namemodel-storage-123456789\ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'