Utilisation de Kubernetes YAML Utilisation de la HyperPod CLI Déploiement de modèles avec MIG Utilisation de la HyperPod CLI

Soumission de tâches avec MIG

Rubriques

Utilisation de Kubernetes YAML
Utilisation de la HyperPod CLI
Déploiement de modèles avec MIG
Utilisation de la HyperPod CLI

Utilisation de Kubernetes YAML


apiVersion: batch/v1
kind: Job
metadata:
  name: mig-job
  namespace: default
spec:
  template:
    spec:
      containers:
      - name: pytorch
        image: pytorch/pytorch:latest
        resources:
          requests:
            nvidia.com/mig-1g.5gb: 1
            cpu: "100m"
            memory: "128Mi"
          limits:
            nvidia.com/mig-1g.5gb: 1
      restartPolicy: Never

Utilisation de la HyperPod CLI

Utilisez la HyperPod CLI pour déployer JumpStart des modèles compatibles MIG. L'exemple suivant illustre les nouveaux paramètres de la CLI pour le partitionnement du GPU :


# Deploy JumpStart model with MIG
hyp create hyp-jumpstart-endpoint \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p5.48xlarge \
  --accelerator-partition-type mig-2g.10gb \
  --accelerator-partition-validation True \
  --endpoint-name my-endpoint \
  --tls-certificate-output-s3-uri s3://certificate-bucket/ \
  --namespace default

Déploiement de modèles avec MIG

HyperPod L'inférence permet de déployer les modèles sur des profils MIG via Studio Classic et kubectl CLI HyperPod . Pour déployer JumpStart des modèles surkubectl, CRDs appelez des champs spec.server.acceleratorPartitionType pour déployer le modèle selon le profil MIG souhaité. Nous effectuons des validations pour garantir que les modèles peuvent être déployés sur le profil MIG sélectionné dans le CRD. Si vous souhaitez désactiver les contrôles de validation MIG, utilisez-lespec.server.validations.acceleratorPartitionValidation. False

JumpStart Modèles


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: JumpStartModel
metadata:
  name: deepseek-model
  namespace: default
spec:
  sageMakerEndpoint:
    name: deepseek-endpoint
  model:
    modelHubName: SageMakerPublicHub
    modelId: deepseek-llm-r1-distill-qwen-1-5b
  server:
    acceleratorPartitionType: mig-7g.40gb
    instanceType: ml.p4d.24xlarge

Déployez le modèle depuis Amazon S3 à l'aide de InferenceEndpointConfig

InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir d'Amazon S3. Pour déployer un modèle sur MIG, spec.worker.resources mentionnez le profil MIG dans requests et. limits Reportez-vous à un déploiement simple ci-dessous :


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: my-model-bucket
      region: us-east-2
    modelLocation: model-path
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Déployez le modèle depuis FSx pour Lustre en utilisant InferenceEndpointConfig

InferenceEndpointConfig vous permet de déployer un modèle personnalisé à partir de FSx for Lustre. Pour déployer un modèle sur MIG, spec.worker.resources mentionnez le profil MIG dans requests et. limits Reportez-vous à un déploiement simple ci-dessous :


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: fsx
    fsxStorage:
      fileSystemId: fs-xxxxx
    modelLocation: location-on-fsx
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Utilisation de l'interface utilisateur de Studio Classic

Déploiement de JumpStart modèles avec MIG

Ouvrez Studio Classic et accédez à JumpStart
Parcourez ou recherchez le modèle de votre choix (par exemple, "DeepSeek«, « Lama », etc.)
Cliquez sur le modèle de carte et sélectionnez Déployer
Dans la configuration de déploiement :
- Choisissez HyperPodcomme cible de déploiement
- Sélectionnez votre cluster compatible MiG dans le menu déroulant
- Sous Configuration de l’instance :
  - Sélectionnez le type d'instance (par exemple,ml.p4d.24xlarge)
  - Choisissez le type de partition GPU parmi les options disponibles
  - Configuration du nombre d'instances et des paramètres de mise à l'échelle automatique
Vérifiez et cliquez sur Déployer
Surveillez la progression du déploiement dans la section Endpoints

Options de configuration du modèle

Paramètres du point de terminaison :

Nom du point de terminaison : identifiant unique pour votre déploiement
Nom de la variante - Variante de configuration (par défaut : AllTraffic)
Type d'instance - Doit prendre en charge la partition GPU (série p)
Profil MIG - partition GPU
Nombre d'instances initial : nombre d'instances à déployer
Mise à l'échelle automatique : activez la mise à l'échelle dynamique en fonction du trafic

Configuration avancée :

Emplacement des données du modèle : chemin Amazon S3 pour les modèles personnalisés
Image du conteneur - Conteneur d'inférence personnalisé (facultatif)
Variables d'environnement - Configurations spécifiques au modèle
Configuration Amazon VPC - Paramètres d'isolation du réseau

Surveillance des modèles déployés

Accédez à Studio Classic > Déploiements > Endpoints
Sélectionnez votre point de terminaison compatible MiG
Consultez les statistiques, notamment :
- Utilisation du MIG : utilisation par partition GPU
- Consommation de mémoire - Par partition GPU
- Latence d'inférence - Temps de traitement des demandes
- Débit : demandes par seconde
Configurer les CloudWatch alarmes Amazon pour une surveillance automatisée
Configurer des politiques d'auto-scaling basées sur l'utilisation du MIG

Utilisation de la HyperPod CLI

JumpStart Déploiement

La JumpStart commande HyperPod CLI inclut deux nouveaux champs pour le support MIG :

--accelerator-partition-type- Spécifie la configuration MIG (par exemple, mig-4g.20gb)
--accelerator-partition-validation- Valide la compatibilité entre les modèles et le profil MIG (valeur par défaut : true)


hyp create hyp-jumpstart-endpoint \
  --version 1.1 \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p4d.24xlarge \
  --endpoint-name js-test \
  --accelerator-partition-type "mig-4g.20gb" \
  --accelerator-partition-validation true \
  --tls-certificate-output-s3-uri s3://my-bucket/certs/

Déploiement de terminaux personnalisés

Pour le déploiement via un point de terminaison personnalisé, utilisez les champs existants --resources-requests et --resources-limits pour activer la fonctionnalité du profil MIG :


hyp create hyp-custom-endpoint \
  --namespace default \
  --metadata-name deepseek15b-mig-10-14-v2 \
  --endpoint-name deepseek15b-mig-endpoint \
  --instance-type ml.p4d.24xlarge \
  --model-name deepseek15b-mig \
  --model-source-type s3 \
  --model-location deep-seek-15b \
  --prefetch-enabled true \
  --tls-certificate-output-s3-uri s3://sagemaker-bucket \
  --image-uri lmcache/vllm-openai:v0.3.7 \
  --container-port 8080 \
  --model-volume-mount-path /opt/ml/model \
  --model-volume-mount-name model-weights \
  --s3-bucket-name model-storage-123456789 \
  --s3-region us-east-2 \
  --invocation-endpoint invocations \
  --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \
  --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \
  --env '{
    "OPTION_ROLLING_BATCH":"vllm",
    "SERVING_CHUNKED_READ_TIMEOUT":"480",
    "DJL_OFFLINE":"true",
    "NUM_SHARD":"1",
    "SAGEMAKER_PROGRAM":"inference.py",
    "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code",
    "MODEL_CACHE_ROOT":"/opt/ml/model",
    "SAGEMAKER_MODEL_SERVER_WORKERS":"1",
    "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600",
    "OPTION_TRUST_REMOTE_CODE":"true",
    "OPTION_ENABLE_REASONING":"true",
    "OPTION_REASONING_PARSER":"deepseek_r1",
    "SAGEMAKER_CONTAINER_LOG_LEVEL":"20",
    "SAGEMAKER_ENV":"1"
  }'

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Cycle de vie des nœuds

Résilience de cluster