Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Soumission de tâches avec MIG
Rubriques
Utilisation de Kubernetes YAML
apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never
Utilisation de la HyperPod CLI
Utilisez la HyperPod CLI pour déployer JumpStart des modèles compatibles MIG. L'exemple suivant illustre les nouveaux paramètres de la CLI pour le partitionnement du GPU :
# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-namemy-endpoint\ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default
Déploiement de modèles avec MIG
HyperPod L'inférence permet de déployer les modèles sur des profils MIG via Studio Classic et kubectl CLI HyperPod . Pour déployer JumpStart des modèles surkubectl, CRDs appelez des champs spec.server.acceleratorPartitionType pour déployer le modèle selon le profil MIG souhaité. Nous effectuons des validations pour garantir que les modèles peuvent être déployés sur le profil MIG sélectionné dans le CRD. Si vous souhaitez désactiver les contrôles de validation MIG, utilisez-lespec.server.validations.acceleratorPartitionValidation. False
JumpStart Modèles
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge
Déployez le modèle depuis Amazon S3 à l'aide de InferenceEndpointConfig
InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir d'Amazon S3. Pour déployer un modèle sur MIG, spec.worker.resources mentionnez le profil MIG dans requests et. limits Reportez-vous à un déploiement simple ci-dessous :
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName:my-model-bucketregion:us-east-2modelLocation:model-pathworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Déployez le modèle depuis FSx pour Lustre en utilisant InferenceEndpointConfig
InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir de FSx for Lustre. Pour déployer un modèle sur MIG, spec.worker.resources mentionnez le profil MIG dans requests et. limits Reportez-vous à un déploiement simple ci-dessous :
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId:fs-xxxxxmodelLocation:location-on-fsxworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Utilisation de l'interface utilisateur de Studio Classic
Déploiement de JumpStart modèles avec MIG
-
Ouvrez Studio Classic et accédez à JumpStart
-
Parcourez ou recherchez le modèle de votre choix (par exemple, "DeepSeek«, « Lama », etc.)
-
Cliquez sur le modèle de carte et sélectionnez Déployer
-
Dans la configuration de déploiement :
-
Choisissez HyperPodcomme cible de déploiement
-
Sélectionnez votre cluster compatible MiG dans le menu déroulant
-
Sous Configuration de l’instance :
-
Sélectionnez le type d'instance (par exemple,
ml.p4d.24xlarge) -
Choisissez le type de partition GPU parmi les options disponibles
-
Configuration du nombre d'instances et des paramètres de mise à l'échelle automatique
-
-
-
Vérifiez et cliquez sur Déployer
-
Surveillez la progression du déploiement dans la section Endpoints
Options de configuration du modèle
Paramètres du point de terminaison :
-
Nom du point de terminaison : identifiant unique pour votre déploiement
-
Nom de la variante - Variante de configuration (par défaut : AllTraffic)
-
Type d'instance - Doit prendre en charge la partition GPU (série p)
-
Profil MIG - partition GPU
-
Nombre d'instances initial : nombre d'instances à déployer
-
Mise à l'échelle automatique : activez la mise à l'échelle dynamique en fonction du trafic
Configuration avancée :
-
Emplacement des données du modèle : chemin Amazon S3 pour les modèles personnalisés
-
Image du conteneur - Conteneur d'inférence personnalisé (facultatif)
-
Variables d'environnement - Configurations spécifiques au modèle
-
Configuration Amazon VPC - Paramètres d'isolation du réseau
Surveillance des modèles déployés
-
Accédez à Studio Classic > Déploiements > Endpoints
-
Sélectionnez votre point de terminaison compatible MiG
-
Consultez les statistiques, notamment :
-
Utilisation du MIG : utilisation par partition GPU
-
Consommation de mémoire - Par partition GPU
-
Latence d'inférence - Temps de traitement des demandes
-
Débit : demandes par seconde
-
-
Configurer les CloudWatch alarmes Amazon pour une surveillance automatisée
-
Configurer des politiques d'auto-scaling basées sur l'utilisation du MIG
Utilisation de la HyperPod CLI
JumpStart Déploiement
La JumpStart commande HyperPod CLI inclut deux nouveaux champs pour le support MIG :
-
--accelerator-partition-type- Spécifie la configuration MIG (par exemple, mig-4g.20gb) -
--accelerator-partition-validation- Valide la compatibilité entre les modèles et le profil MIG (valeur par défaut : true)
hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uris3://my-bucket/certs/
Déploiement de terminaux personnalisés
Pour le déploiement via un point de terminaison personnalisé, utilisez les champs existants --resources-requests et --resources-limits pour activer la fonctionnalité du profil MIG :
hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket\ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-namemodel-storage-123456789\ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'