Menggunakan Kubernetes YAMM Menggunakan HyperPod CLI Penerapan Model dengan MIG Menggunakan HyperPod CLI

Pengajuan Tugas dengan MIG

Topik

Menggunakan Kubernetes YAMM
Menggunakan HyperPod CLI
Penerapan Model dengan MIG
Menggunakan HyperPod CLI

Menggunakan Kubernetes YAMM


apiVersion: batch/v1
kind: Job
metadata:
  name: mig-job
  namespace: default
spec:
  template:
    spec:
      containers:
      - name: pytorch
        image: pytorch/pytorch:latest
        resources:
          requests:
            nvidia.com/mig-1g.5gb: 1
            cpu: "100m"
            memory: "128Mi"
          limits:
            nvidia.com/mig-1g.5gb: 1
      restartPolicy: Never

Menggunakan HyperPod CLI

Gunakan HyperPod CLI untuk menyebarkan JumpStart model dengan dukungan MIG. Contoh berikut menunjukkan parameter CLI baru untuk partisi GPU:


# Deploy JumpStart model with MIG
hyp create hyp-jumpstart-endpoint \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p5.48xlarge \
  --accelerator-partition-type mig-2g.10gb \
  --accelerator-partition-validation True \
  --endpoint-name my-endpoint \
  --tls-certificate-output-s3-uri s3://certificate-bucket/ \
  --namespace default

Penerapan Model dengan MIG

HyperPod Inferensi memungkinkan penerapan model pada profil MIG melalui Studio Classic, dan kubectl CLI. HyperPod Untuk menerapkan JumpStart Modelkubectl, CRD memiliki bidang yang dipanggil spec.server.acceleratorPartitionType untuk menyebarkan model ke profil MIG yang diinginkan. Kami menjalankan validasi untuk memastikan model dapat diterapkan pada profil MIG yang dipilih di CRD. Jika Anda ingin menonaktifkan pemeriksaan validasi MIG, gunakan untukspec.server.validations.acceleratorPartitionValidation. False

JumpStart Model


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: JumpStartModel
metadata:
  name: deepseek-model
  namespace: default
spec:
  sageMakerEndpoint:
    name: deepseek-endpoint
  model:
    modelHubName: SageMakerPublicHub
    modelId: deepseek-llm-r1-distill-qwen-1-5b
  server:
    acceleratorPartitionType: mig-7g.40gb
    instanceType: ml.p4d.24xlarge

Menerapkan model dari Amazon S3 menggunakan InferenceEndpointConfig

InferenceEndpointConfig memungkinkan Anda untuk menyebarkan model kustom dari Amazon S3. Untuk menerapkan model di MIG, spec.worker.resources sebutkan profil MIG di dan. requests limits Lihat penerapan sederhana di bawah ini:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: my-model-bucket
      region: us-east-2
    modelLocation: model-path
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Terapkan model dari FSx for Lustre menggunakan InferenceEndpointConfig

InferenceEndpointConfig memungkinkan Anda untuk menerapkan model kustom dari FSx for Lustre. Untuk menerapkan model di MIG, spec.worker.resources sebutkan profil MIG di dan. requests limits Lihat penerapan sederhana di bawah ini:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: fsx
    fsxStorage:
      fileSystemId: fs-xxxxx
    modelLocation: location-on-fsx
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Menggunakan UI Studio Classic

Menerapkan JumpStart Model dengan MIG

Buka Studio Classic dan navigasikan ke JumpStart
Jelajahi atau cari model yang Anda inginkan (mis., "DeepSeek“, “Llama”, dll.)
Klik pada kartu model dan pilih Deploy
Dalam konfigurasi penerapan:
- Pilih HyperPodsebagai target penyebaran
- Pilih MIG-enabled klaster Anda dari dropdown
- Di bawah konfigurasi Instance:
  - Pilih jenis contoh (mis.,ml.p4d.24xlarge)
  - Pilih Jenis Partisi GPU dari opsi yang tersedia
  - Konfigurasikan jumlah dan Auto-scalingpengaturan Instance
Tinjau dan klik Deploy
Pantau kemajuan penerapan di bagian Endpoints

Opsi Konfigurasi Model

Pengaturan titik akhir:

Nama titik akhir - Pengidentifikasi unik untuk penerapan Anda
Nama varian - Varian konfigurasi (default: AllTraffic)
Jenis instans - Harus mendukung partisi GPU (seri p)
Profil MIG - partisi GPU
Jumlah instans awal - Jumlah instance yang akan digunakan
Auto-scaling- Aktifkan penskalaan dinamis berdasarkan lalu lintas

Konfigurasi Lanjutan:

Lokasi data model - jalur Amazon S3 untuk model kustom
Gambar kontainer - Wadah inferensi kustom (opsional)
Variabel lingkungan - Model-specific konfigurasi
Konfigurasi Amazon VPC - Pengaturan isolasi jaringan

Memantau Model yang Diterapkan

Arahkan ke Studio Classic > Deployment > Endpoints
Pilih titik MIG-enabled akhir Anda
Lihat metrik termasuk:
- Pemanfaatan MIG - Per penggunaan partisi GPU
- Konsumsi memori - Per partisi GPU
- Latensi inferensi - Minta waktu pemrosesan
- Throughput - Permintaan per detik
Siapkan CloudWatch alarm Amazon untuk pemantauan otomatis
Konfigurasikan kebijakan auto-scaling berdasarkan pemanfaatan MIG

Menggunakan HyperPod CLI

JumpStart Penyebaran

JumpStart Perintah HyperPod CLI mencakup dua bidang baru untuk dukungan MIG:

--accelerator-partition-type- Menentukan konfigurasi MIG (misalnya, mig-4g.20gb)
--accelerator-partition-validation- Memvalidasi kompatibilitas antara model dan profil MIG (default: true)


hyp create hyp-jumpstart-endpoint \
  --version 1.1 \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p4d.24xlarge \
  --endpoint-name js-test \
  --accelerator-partition-type "mig-4g.20gb" \
  --accelerator-partition-validation true \
  --tls-certificate-output-s3-uri s3://my-bucket/certs/

Penerapan Endpoint Kustom

Untuk menerapkan melalui titik akhir kustom, gunakan bidang yang ada --resources-requests dan --resources-limits untuk mengaktifkan fungsionalitas profil MIG:


hyp create hyp-custom-endpoint \
  --namespace default \
  --metadata-name deepseek15b-mig-10-14-v2 \
  --endpoint-name deepseek15b-mig-endpoint \
  --instance-type ml.p4d.24xlarge \
  --model-name deepseek15b-mig \
  --model-source-type s3 \
  --model-location deep-seek-15b \
  --prefetch-enabled true \
  --tls-certificate-output-s3-uri s3://sagemaker-bucket \
  --image-uri lmcache/vllm-openai:v0.3.7 \
  --container-port 8080 \
  --model-volume-mount-path /opt/ml/model \
  --model-volume-mount-name model-weights \
  --s3-bucket-name model-storage-123456789 \
  --s3-region us-east-2 \
  --invocation-endpoint invocations \
  --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \
  --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \
  --env '{
    "OPTION_ROLLING_BATCH":"vllm",
    "SERVING_CHUNKED_READ_TIMEOUT":"480",
    "DJL_OFFLINE":"true",
    "NUM_SHARD":"1",
    "SAGEMAKER_PROGRAM":"inference.py",
    "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code",
    "MODEL_CACHE_ROOT":"/opt/ml/model",
    "SAGEMAKER_MODEL_SERVER_WORKERS":"1",
    "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600",
    "OPTION_TRUST_REMOTE_CODE":"true",
    "OPTION_ENABLE_REASONING":"true",
    "OPTION_REASONING_PARSER":"deepseek_r1",
    "SAGEMAKER_CONTAINER_LOG_LEVEL":"20",
    "SAGEMAKER_ENV":"1"
  }'

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Siklus hidup simpul

Ketahanan klaster