Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pengajuan Tugas dengan MIG
Topik
Menggunakan Kubernetes YAMB
apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never
Menggunakan HyperPod CLI
Gunakan HyperPod CLI untuk menyebarkan JumpStart model dengan dukungan MIG. Contoh berikut menunjukkan parameter CLI baru untuk partisi GPU:
# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-namemy-endpoint\ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default
Penerapan Model dengan MIG
HyperPod Inferensi memungkinkan penerapan model pada profil MIG melalui Studio Classic, dan kubectl CLI. HyperPod Untuk menerapkan JumpStart Modelkubectl, CRDs minta bidang yang dipanggil spec.server.acceleratorPartitionType untuk menyebarkan model ke profil MIG yang diinginkan. Kami menjalankan validasi untuk memastikan model dapat diterapkan pada profil MIG yang dipilih di CRD. Jika Anda ingin menonaktifkan pemeriksaan validasi MIG, gunakan untukspec.server.validations.acceleratorPartitionValidation. False
JumpStart Model
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge
Menerapkan model dari Amazon S3 menggunakan InferenceEndpointConfig
InferenceEndpointConfig memungkinkan Anda untuk menyebarkan model kustom dari Amazon S3. Untuk menerapkan model di MIG, spec.worker.resources sebutkan profil MIG di dan. requests limits Lihat penerapan sederhana di bawah ini:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName:my-model-bucketregion:us-east-2modelLocation:model-pathworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Terapkan model dari FSx untuk Lustre menggunakan InferenceEndpointConfig
InferenceEndpointConfig memungkinkan Anda untuk menerapkan model kustom dari FSx untuk Lustre. Untuk menerapkan model di MIG, spec.worker.resources sebutkan profil MIG di dan. requests limits Lihat penerapan sederhana di bawah ini:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId:fs-xxxxxmodelLocation:location-on-fsxworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Menggunakan UI Studio Classic
Menerapkan JumpStart Model dengan MIG
-
Buka Studio Classic dan navigasikan ke JumpStart
-
Jelajahi atau cari model yang Anda inginkan (mis., "DeepSeek“, “Llama”, dll.)
-
Klik pada kartu model dan pilih Deploy
-
Dalam konfigurasi penerapan:
-
Pilih HyperPodsebagai target penyebaran
-
Pilih cluster berkemampuan MiG Anda dari dropdown
-
Di bawah konfigurasi Instance:
-
Pilih jenis contoh (mis.,
ml.p4d.24xlarge) -
Pilih Jenis Partisi GPU dari opsi yang tersedia
-
Konfigurasikan pengaturan hitungan Instans dan penskalaan otomatis
-
-
-
Tinjau dan klik Deploy
-
Pantau kemajuan penerapan di bagian Endpoints
Opsi Konfigurasi Model
Pengaturan titik akhir:
-
Nama titik akhir - Pengidentifikasi unik untuk penerapan Anda
-
Nama varian - Varian konfigurasi (default: AllTraffic)
-
Jenis instans - Harus mendukung partisi GPU (seri p)
-
Profil MIG - partisi GPU
-
Jumlah instans awal - Jumlah instance yang akan digunakan
-
Penskalaan otomatis - Aktifkan penskalaan dinamis berdasarkan lalu lintas
Konfigurasi Lanjutan:
-
Lokasi data model - jalur Amazon S3 untuk model kustom
-
Gambar kontainer - Wadah inferensi kustom (opsional)
-
Variabel lingkungan - Konfigurasi khusus model
-
Konfigurasi Amazon VPC - Pengaturan isolasi jaringan
Memantau Model yang Diterapkan
-
Arahkan ke Studio Classic > Deployment > Endpoints
-
Pilih titik akhir berkemampuan MiG
-
Lihat metrik termasuk:
-
Pemanfaatan MIG - Per penggunaan partisi GPU
-
Konsumsi memori - Per partisi GPU
-
Latensi inferensi - Minta waktu pemrosesan
-
Throughput - Permintaan per detik
-
-
Siapkan CloudWatch alarm Amazon untuk pemantauan otomatis
-
Konfigurasikan kebijakan auto-scaling berdasarkan pemanfaatan MIG
Menggunakan HyperPod CLI
JumpStart Penyebaran
JumpStart Perintah HyperPod CLI mencakup dua bidang baru untuk dukungan MIG:
-
--accelerator-partition-type- Menentukan konfigurasi MIG (misalnya, mig-4g.20gb) -
--accelerator-partition-validation- Memvalidasi kompatibilitas antara model dan profil MIG (default: true)
hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uris3://my-bucket/certs/
Penerapan Endpoint Kustom
Untuk menerapkan melalui titik akhir kustom, gunakan bidang yang ada --resources-requests dan --resources-limits untuk mengaktifkan fungsionalitas profil MIG:
hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket\ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-namemodel-storage-123456789\ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'