Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich. # Einreichung von Aufgaben mit MIG **Topics** + [Verwenden von Kubernetes YAML](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl) + [HyperPod CLI verwenden](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli) + [Modellbereitstellung mit MIG](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment) + [HyperPod CLI verwenden](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli) ## Verwenden von Kubernetes YAML ``` apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never ``` ## HyperPod CLI verwenden Verwenden Sie die HyperPod CLI, um JumpStart Modelle mit MIG-Unterstützung bereitzustellen. Das folgende Beispiel demonstriert die neuen CLI-Parameter für die GPU-Partitionierung: ``` # Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default ``` ## Modellbereitstellung mit MIG HyperPod Inference ermöglicht die Bereitstellung der Modelle auf MIG-Profilen über Studio Classic `kubectl` und HyperPod CLI. Um JumpStart Modelle auf bereitzustellen`kubectl`, CRDs müssen Felder aufgerufen werden, `spec.server.acceleratorPartitionType` um das Modell für das gewünschte MIG-Profil bereitzustellen. Wir führen Validierungen durch, um sicherzustellen, dass Modelle auf dem in der CRD ausgewählten MIG-Profil bereitgestellt werden können. Falls Sie die MIG-Validierungsprüfungen deaktivieren möchten, verwenden Sie to. `spec.server.validations.acceleratorPartitionValidation` `False` ### JumpStart Modelle ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge ``` ### Modell von Amazon S3 bereitstellen mit InferenceEndpointConfig InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell von Amazon S3 aus bereitzustellen. Um ein Modell auf MIG bereitzustellen, `spec.worker.resources` erwähnen Sie das MIG-Profil in `requests` und`limits`. Im Folgenden wird eine einfache Bereitstellung beschrieben: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Stellen Sie das Modell von FSx for Lustre bereit mit InferenceEndpointConfig InferenceEndpointConfig ermöglicht es Ihnen, ein benutzerdefiniertes Modell FSx für Lustre bereitzustellen. Um ein Modell auf MIG bereitzustellen, `spec.worker.resources` erwähnen Sie das MIG-Profil in `requests` und`limits`. Im Folgenden wird eine einfache Bereitstellung beschrieben: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Verwenden der klassischen Benutzeroberfläche von Studio #### Bereitstellen von JumpStart Modellen mit MIG 1. Öffnen Sie **Studio Classic** und navigieren Sie zu **JumpStart** 1. Suchen oder suchen Sie nach Ihrem gewünschten Modell (z. B. "DeepSeek„, „Lama“ usw.) 1. **Klicken Sie auf die Modellkarte und wählen Sie Bereitstellen** 1. In der Bereitstellungskonfiguration: + Wählen Sie **HyperPod**als Bereitstellungsziel + Wählen Sie Ihren MIG-fähigen Cluster aus der Drop-down-Liste aus + Unter **Instance-Konfiguration**: + Wählen Sie den Instanztyp aus (z. B.) `ml.p4d.24xlarge` + Wählen Sie den **GPU-Partitionstyp** aus den verfügbaren Optionen + Konfigurieren Sie die Einstellungen für die **Anzahl der Instanzen** und die **automatische Skalierung** 1. **Überprüfen Sie und klicken Sie auf Bereitstellen** 1. Überwachen Sie den Bereitstellungsfortschritt im Bereich **Endpoints** #### Optionen für die Modellkonfiguration **Endpunkt-Einstellungen:** + **Endpunktname** — Eindeutiger Bezeichner für Ihre Bereitstellung + **Variantenname** — Konfigurationsvariante (Standard: AllTraffic) + **Instanztyp** — Muss die GPU-Partition (P-Serie) unterstützen + **MIG-Profil** — GPU-Partition + **Anfängliche Anzahl der Instanzen** — Anzahl der bereitzustellenden Instanzen + **Automatische Skalierung** — Aktiviert die dynamische Skalierung auf der Grundlage des Datenverkehrs **Erweiterte Konfiguration:** + **Speicherort der Modelldaten** — Amazon S3 S3-Pfad für benutzerdefinierte Modelle + **Container-Image** — Benutzerdefinierter Inferenzcontainer (optional) + **Umgebungsvariablen** — Modellspezifische Konfigurationen + **Amazon VPC-Konfiguration — Einstellungen** für die Netzwerkisolierung #### Überwachung der eingesetzten Modelle 1. **Navigieren Sie zu **Studio Classic** > **Bereitstellungen > Endpoints**** 1. Wählen Sie Ihren MIG-fähigen Endpunkt aus 1. Sehen Sie sich unter anderem folgende Kennzahlen an: + **MIG-Nutzung — Nutzung** pro GPU-Partition + **Speicherverbrauch** — Pro GPU-Partition + **Inferenzlatenz** — Verarbeitungszeit der Anfrage + **Durchsatz** — Anfragen pro Sekunde 1. ** CloudWatch Amazon-Alarme** für die automatische Überwachung einrichten 1. Konfigurieren Sie **Richtlinien für die auto-scaling** auf der Grundlage der MIG-Nutzung ## HyperPod CLI verwenden ### JumpStart Einsatz Der HyperPod JumpStart CLI-Befehl enthält zwei neue Felder für die MIG-Unterstützung: + `--accelerator-partition-type`- Spezifiziert die MIG-Konfiguration (z. B. mig-4g.20gb) + `--accelerator-partition-validation`- Überprüft die Kompatibilität zwischen Modellen und MIG-Profil (Standard: true) ``` hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/ ``` ### Bereitstellung benutzerdefinierter Endgeräte Verwenden Sie für die Bereitstellung über einen benutzerdefinierten Endpunkt die vorhandenen Felder `--resources-requests` und aktivieren `--resources-limits` Sie die MIG-Profilfunktion: ``` hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }' ```