Pengajuan Tugas dengan MIG - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pengajuan Tugas dengan MIG

Menggunakan Kubernetes YAMB

apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never

Menggunakan HyperPod CLI

Gunakan HyperPod CLI untuk menyebarkan JumpStart model dengan dukungan MIG. Contoh berikut menunjukkan parameter CLI baru untuk partisi GPU:

# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default

Penerapan Model dengan MIG

HyperPod Inferensi memungkinkan penerapan model pada profil MIG melalui Studio Classic, dan kubectl CLI. HyperPod Untuk menerapkan JumpStart Modelkubectl, CRDs minta bidang yang dipanggil spec.server.acceleratorPartitionType untuk menyebarkan model ke profil MIG yang diinginkan. Kami menjalankan validasi untuk memastikan model dapat diterapkan pada profil MIG yang dipilih di CRD. Jika Anda ingin menonaktifkan pemeriksaan validasi MIG, gunakan untukspec.server.validations.acceleratorPartitionValidation. False

JumpStart Model

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge

Menerapkan model dari Amazon S3 menggunakan InferenceEndpointConfig

InferenceEndpointConfig memungkinkan Anda untuk menyebarkan model kustom dari Amazon S3. Untuk menerapkan model di MIG, spec.worker.resources sebutkan profil MIG di dan. requests limits Lihat penerapan sederhana di bawah ini:

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Terapkan model dari FSx untuk Lustre menggunakan InferenceEndpointConfig

InferenceEndpointConfig memungkinkan Anda untuk menerapkan model kustom dari FSx untuk Lustre. Untuk menerapkan model di MIG, spec.worker.resources sebutkan profil MIG di dan. requests limits Lihat penerapan sederhana di bawah ini:

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Menggunakan UI Studio Classic

Menerapkan JumpStart Model dengan MIG

  1. Buka Studio Classic dan navigasikan ke JumpStart

  2. Jelajahi atau cari model yang Anda inginkan (mis., "DeepSeek“, “Llama”, dll.)

  3. Klik pada kartu model dan pilih Deploy

  4. Dalam konfigurasi penerapan:

    • Pilih HyperPodsebagai target penyebaran

    • Pilih cluster berkemampuan MiG Anda dari dropdown

    • Di bawah konfigurasi Instance:

      • Pilih jenis contoh (mis.,ml.p4d.24xlarge)

      • Pilih Jenis Partisi GPU dari opsi yang tersedia

      • Konfigurasikan pengaturan hitungan Instans dan penskalaan otomatis

  5. Tinjau dan klik Deploy

  6. Pantau kemajuan penerapan di bagian Endpoints

Opsi Konfigurasi Model

Pengaturan titik akhir:

  • Nama titik akhir - Pengidentifikasi unik untuk penerapan Anda

  • Nama varian - Varian konfigurasi (default: AllTraffic)

  • Jenis instans - Harus mendukung partisi GPU (seri p)

  • Profil MIG - partisi GPU

  • Jumlah instans awal - Jumlah instance yang akan digunakan

  • Penskalaan otomatis - Aktifkan penskalaan dinamis berdasarkan lalu lintas

Konfigurasi Lanjutan:

  • Lokasi data model - jalur Amazon S3 untuk model kustom

  • Gambar kontainer - Wadah inferensi kustom (opsional)

  • Variabel lingkungan - Konfigurasi khusus model

  • Konfigurasi Amazon VPC - Pengaturan isolasi jaringan

Memantau Model yang Diterapkan

  1. Arahkan ke Studio Classic > Deployment > Endpoints

  2. Pilih titik akhir berkemampuan MiG

  3. Lihat metrik termasuk:

    • Pemanfaatan MIG - Per penggunaan partisi GPU

    • Konsumsi memori - Per partisi GPU

    • Latensi inferensi - Minta waktu pemrosesan

    • Throughput - Permintaan per detik

  4. Siapkan CloudWatch alarm Amazon untuk pemantauan otomatis

  5. Konfigurasikan kebijakan auto-scaling berdasarkan pemanfaatan MIG

Menggunakan HyperPod CLI

JumpStart Penyebaran

JumpStart Perintah HyperPod CLI mencakup dua bidang baru untuk dukungan MIG:

  • --accelerator-partition-type- Menentukan konfigurasi MIG (misalnya, mig-4g.20gb)

  • --accelerator-partition-validation- Memvalidasi kompatibilitas antara model dan profil MIG (default: true)

hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/

Penerapan Endpoint Kustom

Untuk menerapkan melalui titik akhir kustom, gunakan bidang yang ada --resources-requests dan --resources-limits untuk mengaktifkan fungsionalitas profil MIG:

hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'