Soumission de tâches avec MIG - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Soumission de tâches avec MIG

Utilisation de Kubernetes YAML

apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never

Utilisation de la HyperPod CLI

Utilisez la HyperPod CLI pour déployer JumpStart des modèles compatibles MIG. L'exemple suivant illustre les nouveaux paramètres de la CLI pour le partitionnement du GPU :

# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default

Déploiement de modèles avec MIG

HyperPod L'inférence permet de déployer les modèles sur des profils MIG via Studio Classic et kubectl CLI HyperPod . Pour déployer JumpStart des modèles surkubectl, CRDs appelez des champs spec.server.acceleratorPartitionType pour déployer le modèle selon le profil MIG souhaité. Nous effectuons des validations pour garantir que les modèles peuvent être déployés sur le profil MIG sélectionné dans le CRD. Si vous souhaitez désactiver les contrôles de validation MIG, utilisez-lespec.server.validations.acceleratorPartitionValidation. False

JumpStart Modèles

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge

Déployez le modèle depuis Amazon S3 à l'aide de InferenceEndpointConfig

InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir d'Amazon S3. Pour déployer un modèle sur MIG, spec.worker.resources mentionnez le profil MIG dans requests et. limits Reportez-vous à un déploiement simple ci-dessous :

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Déployez le modèle depuis FSx pour Lustre en utilisant InferenceEndpointConfig

InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir de FSx for Lustre. Pour déployer un modèle sur MIG, spec.worker.resources mentionnez le profil MIG dans requests et. limits Reportez-vous à un déploiement simple ci-dessous :

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Utilisation de l'interface utilisateur de Studio Classic

Déploiement de JumpStart modèles avec MIG

  1. Ouvrez Studio Classic et accédez à JumpStart

  2. Parcourez ou recherchez le modèle de votre choix (par exemple, "DeepSeek«, « Lama », etc.)

  3. Cliquez sur le modèle de carte et sélectionnez Déployer

  4. Dans la configuration de déploiement :

    • Choisissez HyperPodcomme cible de déploiement

    • Sélectionnez votre cluster compatible MiG dans le menu déroulant

    • Sous Configuration de l’instance :

      • Sélectionnez le type d'instance (par exemple,ml.p4d.24xlarge)

      • Choisissez le type de partition GPU parmi les options disponibles

      • Configuration du nombre d'instances et des paramètres de mise à l'échelle automatique

  5. Vérifiez et cliquez sur Déployer

  6. Surveillez la progression du déploiement dans la section Endpoints

Options de configuration du modèle

Paramètres du point de terminaison :

  • Nom du point de terminaison : identifiant unique pour votre déploiement

  • Nom de la variante - Variante de configuration (par défaut : AllTraffic)

  • Type d'instance - Doit prendre en charge la partition GPU (série p)

  • Profil MIG - partition GPU

  • Nombre d'instances initial : nombre d'instances à déployer

  • Mise à l'échelle automatique : activez la mise à l'échelle dynamique en fonction du trafic

Configuration avancée :

  • Emplacement des données du modèle : chemin Amazon S3 pour les modèles personnalisés

  • Image du conteneur - Conteneur d'inférence personnalisé (facultatif)

  • Variables d'environnement - Configurations spécifiques au modèle

  • Configuration Amazon VPC - Paramètres d'isolation du réseau

Surveillance des modèles déployés

  1. Accédez à Studio Classic > Déploiements > Endpoints

  2. Sélectionnez votre point de terminaison compatible MiG

  3. Consultez les statistiques, notamment :

    • Utilisation du MIG : utilisation par partition GPU

    • Consommation de mémoire - Par partition GPU

    • Latence d'inférence - Temps de traitement des demandes

    • Débit : demandes par seconde

  4. Configurer les CloudWatch alarmes Amazon pour une surveillance automatisée

  5. Configurer des politiques d'auto-scaling basées sur l'utilisation du MIG

Utilisation de la HyperPod CLI

JumpStart Déploiement

La JumpStart commande HyperPod CLI inclut deux nouveaux champs pour le support MIG :

  • --accelerator-partition-type- Spécifie la configuration MIG (par exemple, mig-4g.20gb)

  • --accelerator-partition-validation- Valide la compatibilité entre les modèles et le profil MIG (valeur par défaut : true)

hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/

Déploiement de terminaux personnalisés

Pour le déploiement via un point de terminaison personnalisé, utilisez les champs existants --resources-requests et --resources-limits pour activer la fonctionnalité du profil MIG :

hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'