Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra. # Soumission de tâches avec MIG **Topics** + [ ## Utilisation de Kubernetes YAML ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl) + [ ## Utilisation de la HyperPod CLI ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli) + [ ## Déploiement de modèles avec MIG ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment) + [ ## Utilisation de la HyperPod CLI ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli) ## Utilisation de Kubernetes YAML ``` apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never ``` ## Utilisation de la HyperPod CLI Utilisez la HyperPod CLI pour déployer JumpStart des modèles compatibles MIG. L'exemple suivant illustre les nouveaux paramètres de la CLI pour le partitionnement du GPU : ``` # Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default ``` ## Déploiement de modèles avec MIG HyperPod L'inférence permet de déployer les modèles sur des profils MIG via Studio Classic et `kubectl` CLI HyperPod . Pour déployer JumpStart des modèles sur`kubectl`, CRDs appelez des champs `spec.server.acceleratorPartitionType` pour déployer le modèle selon le profil MIG souhaité. Nous effectuons des validations pour garantir que les modèles peuvent être déployés sur le profil MIG sélectionné dans le CRD. Si vous souhaitez désactiver les contrôles de validation MIG, utilisez-le`spec.server.validations.acceleratorPartitionValidation`. `False` ### JumpStart Modèles ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge ``` ### Déployez le modèle depuis Amazon S3 à l'aide de InferenceEndpointConfig InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir d'Amazon S3. Pour déployer un modèle sur MIG, `spec.worker.resources` mentionnez le profil MIG dans `requests` et. `limits` Reportez-vous à un déploiement simple ci-dessous : ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Déployez le modèle depuis FSx pour Lustre en utilisant InferenceEndpointConfig InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir de FSx for Lustre. Pour déployer un modèle sur MIG, `spec.worker.resources` mentionnez le profil MIG dans `requests` et. `limits` Reportez-vous à un déploiement simple ci-dessous : ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Utilisation de l'interface utilisateur de Studio Classic #### Déploiement de JumpStart modèles avec MIG 1. Ouvrez **Studio Classic** et accédez à **JumpStart** 1. Parcourez ou recherchez le modèle de votre choix (par exemple, "DeepSeek«, « Lama », etc.) 1. Cliquez sur le modèle de carte et sélectionnez **Déployer** 1. Dans la configuration de déploiement : + Choisissez **HyperPod**comme cible de déploiement + Sélectionnez votre cluster compatible MiG dans le menu déroulant + Sous **Configuration de l’instance** : + Sélectionnez le type d'instance (par exemple,`ml.p4d.24xlarge`) + Choisissez le **type de partition GPU** parmi les options disponibles + Configuration du **nombre d'instances** et des paramètres de **mise à l'échelle automatique** 1. Vérifiez et cliquez sur **Déployer** 1. Surveillez la progression du déploiement dans la section **Endpoints** #### Options de configuration du modèle **Paramètres du point de terminaison :** + **Nom du point de terminaison** : identifiant unique pour votre déploiement + **Nom de la variante** - Variante de configuration (par défaut : AllTraffic) + **Type d'instance** - Doit prendre en charge la partition GPU (série p) + **Profil MIG** - Partition GPU + **Nombre d'instances initial** : nombre d'instances à déployer + **Mise à l'échelle automatique** : activez la mise à l'échelle dynamique en fonction du trafic **Configuration avancée :** + **Emplacement des données du modèle** : chemin Amazon S3 pour les modèles personnalisés + **Image du conteneur** - Conteneur d'inférence personnalisé (facultatif) + **Variables d'environnement** - Configurations spécifiques au modèle + **Configuration Amazon VPC** - Paramètres d'isolation du réseau #### Surveillance des modèles déployés 1. **Accédez à **Studio Classic** > **Déploiements > Endpoints**** 1. Sélectionnez votre point de terminaison compatible MiG 1. Consultez les statistiques, notamment : + Utilisation du **MIG : utilisation** par partition GPU + **Consommation de mémoire** - Par partition GPU + **Latence d'inférence** - Temps de traitement des demandes + **Débit** - Demandes par seconde 1. Configurez les ** CloudWatch alarmes Amazon** pour une surveillance automatisée 1. Configurer des **politiques d'auto-scaling** basées sur l'utilisation du MIG ## Utilisation de la HyperPod CLI ### JumpStart Déploiement La JumpStart commande HyperPod CLI inclut deux nouveaux champs pour le support MIG : + `--accelerator-partition-type`- Spécifie la configuration MIG (par exemple, mig-4g.20gb) + `--accelerator-partition-validation`- Valide la compatibilité entre les modèles et le profil MIG (valeur par défaut : true) ``` hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/ ``` ### Déploiement de terminaux personnalisés Pour le déploiement via un point de terminaison personnalisé, utilisez les champs existants `--resources-requests` et `--resources-limits` pour activer la fonctionnalité du profil MIG : ``` hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }' ```