Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris. # Pengajuan Tugas dengan MIG **Topics** + [Menggunakan Kubernetes YAMM](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl) + [Menggunakan HyperPod CLI](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli) + [Penerapan Model dengan MIG](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment) + [Menggunakan HyperPod CLI](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli) ## Menggunakan Kubernetes YAMM ``` apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never ``` ## Menggunakan HyperPod CLI Gunakan HyperPod CLI untuk menyebarkan JumpStart model dengan dukungan MIG. Contoh berikut menunjukkan parameter CLI baru untuk partisi GPU: ``` # Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default ``` ## Penerapan Model dengan MIG HyperPod Inferensi memungkinkan penerapan model pada profil MIG melalui Studio Classic, dan `kubectl` CLI. HyperPod Untuk menerapkan JumpStart Model`kubectl`, CRDs minta bidang yang dipanggil `spec.server.acceleratorPartitionType` untuk menyebarkan model ke profil MIG yang diinginkan. Kami menjalankan validasi untuk memastikan model dapat diterapkan pada profil MIG yang dipilih di CRD. Jika Anda ingin menonaktifkan pemeriksaan validasi MIG, gunakan untuk`spec.server.validations.acceleratorPartitionValidation`. `False` ### JumpStart Model ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge ``` ### Menerapkan model dari Amazon S3 menggunakan InferenceEndpointConfig InferenceEndpointConfig memungkinkan Anda untuk menyebarkan model kustom dari Amazon S3. Untuk menerapkan model di MIG, `spec.worker.resources` sebutkan profil MIG di dan. `requests` `limits` Lihat penerapan sederhana di bawah ini: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Terapkan model dari FSx untuk Lustre menggunakan InferenceEndpointConfig InferenceEndpointConfig memungkinkan Anda untuk menerapkan model kustom dari FSx untuk Lustre. Untuk menerapkan model di MIG, `spec.worker.resources` sebutkan profil MIG di dan. `requests` `limits` Lihat penerapan sederhana di bawah ini: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Menggunakan UI Studio Classic #### Menerapkan JumpStart Model dengan MIG 1. Buka **Studio Classic** dan navigasikan ke **JumpStart** 1. Jelajahi atau cari model yang Anda inginkan (mis., "DeepSeek“, “Llama”, dll.) 1. Klik pada kartu model dan pilih **Deploy** 1. Dalam konfigurasi penerapan: + Pilih **HyperPod**sebagai target penyebaran + Pilih cluster berkemampuan MiG Anda dari dropdown + Di bawah **konfigurasi Instance**: + Pilih jenis contoh (mis.,`ml.p4d.24xlarge`) + Pilih **Jenis Partisi GPU** dari opsi yang tersedia + Konfigurasikan **pengaturan hitungan Instans** dan **penskalaan otomatis** 1. Tinjau dan klik **Deploy** 1. Pantau kemajuan penerapan di bagian **Endpoints** #### Opsi Konfigurasi Model **Pengaturan titik akhir:** + **Nama titik akhir** - Pengidentifikasi unik untuk penerapan Anda + **Nama varian** - Varian konfigurasi (default: AllTraffic) + **Jenis instans** - Harus mendukung partisi GPU (seri p) + **Profil MIG - partisi** GPU + **Jumlah instans awal** - Jumlah instance yang akan digunakan + **Penskalaan otomatis** - Aktifkan penskalaan dinamis berdasarkan lalu lintas **Konfigurasi Lanjutan:** + **Lokasi data model** - jalur Amazon S3 untuk model khusus + **Gambar kontainer** - Wadah inferensi kustom (opsional) + **Variabel lingkungan** - Konfigurasi khusus model + **Konfigurasi Amazon VPC - Pengaturan** isolasi jaringan #### Memantau Model yang Diterapkan 1. **Arahkan ke **Studio Classic** > **Deployment > Endpoints**** 1. Pilih titik akhir berkemampuan MiG 1. Lihat metrik termasuk: + **Pemanfaatan MIG** - Per penggunaan partisi GPU + **Konsumsi memori** - Per partisi GPU + **Latensi inferensi** - Minta waktu pemrosesan + **Throughput** - Permintaan per detik 1. Siapkan ** CloudWatch alarm Amazon** untuk pemantauan otomatis 1. Konfigurasikan kebijakan **auto-scaling berdasarkan pemanfaatan MIG** ## Menggunakan HyperPod CLI ### JumpStart Penyebaran JumpStart Perintah HyperPod CLI mencakup dua bidang baru untuk dukungan MIG: + `--accelerator-partition-type`- Menentukan konfigurasi MIG (misalnya, mig-4g.20gb) + `--accelerator-partition-validation`- Memvalidasi kompatibilitas antara model dan profil MIG (default: true) ``` hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/ ``` ### Penerapan Endpoint Kustom Untuk menerapkan melalui titik akhir kustom, gunakan bidang yang ada `--resources-requests` dan `--resources-limits` untuk mengaktifkan fungsionalitas profil MIG: ``` hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }' ```