Uso de Kubernetes YAML Uso de HyperPod CLI Despliegue de modelos con MIG Uso de HyperPod CLI

Envío de tareas con MIG

Temas

Uso de Kubernetes YAML
Uso de HyperPod CLI
Despliegue de modelos con MIG
Uso de HyperPod CLI

Uso de Kubernetes YAML


apiVersion: batch/v1
kind: Job
metadata:
  name: mig-job
  namespace: default
spec:
  template:
    spec:
      containers:
      - name: pytorch
        image: pytorch/pytorch:latest
        resources:
          requests:
            nvidia.com/mig-1g.5gb: 1
            cpu: "100m"
            memory: "128Mi"
          limits:
            nvidia.com/mig-1g.5gb: 1
      restartPolicy: Never

Uso de HyperPod CLI

Utilice la HyperPod CLI para implementar JumpStart modelos compatibles con MIG. En el siguiente ejemplo, se muestran los nuevos parámetros de CLI para el particionamiento de la GPU:


# Deploy JumpStart model with MIG
hyp create hyp-jumpstart-endpoint \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p5.48xlarge \
  --accelerator-partition-type mig-2g.10gb \
  --accelerator-partition-validation True \
  --endpoint-name my-endpoint \
  --tls-certificate-output-s3-uri s3://certificate-bucket/ \
  --namespace default

Despliegue de modelos con MIG

HyperPod La inferencia permite implementar los modelos en los perfiles MIG a través de Studio Classic y kubectl CLI HyperPod . Para implementar JumpStart los modeloskubectl, llame spec.server.acceleratorPartitionType a CRDs los campos para implementar el modelo en el perfil MIG deseado. Realizamos validaciones para garantizar que los modelos se puedan implementar en el perfil MIG seleccionado en el CRD. En caso de que desee deshabilitar las comprobaciones de validación de MIG, utilice esta opción. spec.server.validations.acceleratorPartitionValidation False

JumpStart Modelos


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: JumpStartModel
metadata:
  name: deepseek-model
  namespace: default
spec:
  sageMakerEndpoint:
    name: deepseek-endpoint
  model:
    modelHubName: SageMakerPublicHub
    modelId: deepseek-llm-r1-distill-qwen-1-5b
  server:
    acceleratorPartitionType: mig-7g.40gb
    instanceType: ml.p4d.24xlarge

Implemente un modelo desde Amazon S3 mediante InferenceEndpointConfig

InferenceEndpointConfig le permite implementar un modelo personalizado desde Amazon S3. Para implementar un modelo en MIG, spec.worker.resources mencione el perfil MIG en requests y. limits Consulte una implementación sencilla a continuación:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: my-model-bucket
      region: us-east-2
    modelLocation: model-path
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Implemente el modelo de FSx for Lustre usando InferenceEndpointConfig

InferenceEndpointConfig le permite implementar un modelo personalizado desde FSx para Lustre. Para implementar un modelo en MIG, spec.worker.resources mencione el perfil MIG en y. requests limits Consulte una implementación sencilla a continuación:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: fsx
    fsxStorage:
      fileSystemId: fs-xxxxx
    modelLocation: location-on-fsx
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Uso de la interfaz de usuario clásica de Studio

Implementación JumpStart de modelos con MIG

Abra Studio Classic y navegue hasta JumpStart
Busque o busque el modelo que desee (por ejemplo, "DeepSeek«, «Llama», etc.)
Haga clic en la tarjeta del modelo y seleccione Desplegar
En la configuración de despliegue:
- Elija HyperPodcomo objetivo de despliegue
- Seleccione su clúster compatible con MIG en el menú desplegable
- En Configuración de la instancia:
  - Seleccione el tipo de instancia (por ejemplo,) ml.p4d.24xlarge
  - Elija el tipo de partición de la GPU entre las opciones disponibles
  - Configure los ajustes de recuento de instancias y escalado automático
Revise y haga clic en Implementar
Supervise el progreso de la implementación en la sección Endpoints

Opciones de configuración del modelo

Configuración del punto final:

Nombre del punto de conexión: identificador único para su implementación
Nombre de la variante: variante de configuración (predeterminada: AllTraffic)
Tipo de instancia: debe ser compatible con la partición de la GPU (serie p)
Perfil MIG: partición de GPU
Recuento inicial de instancias: número de instancias que se van a implementar
Escalado automático: habilita el escalado dinámico en función del tráfico

Configuración avanzada:

Ubicación de los datos del modelo: ruta de Amazon S3 para modelos personalizados
Imagen del contenedor: contenedor de inferencias personalizado (opcional)
Variables de entorno: configuraciones específicas del modelo
Configuración de Amazon VPC: configuración de aislamiento de red

Supervisión de los modelos implementados

Vaya a Studio Classic > Implementaciones > Terminales
Seleccione su terminal compatible con MIG
Vea las métricas, que incluyen:
- Utilización de MIG: uso por partición de GPU
- Consumo de memoria: por partición de GPU
- Latencia de inferencia: tiempo de procesamiento de la solicitud
- Rendimiento: solicitudes por segundo
Configura CloudWatch las alarmas de Amazon para un monitoreo automatizado
Configure políticas de autoscalamiento basadas en la utilización de MIG

Uso de HyperPod CLI

JumpStart Despliegue

El JumpStart comando HyperPod CLI incluye dos campos nuevos para la compatibilidad con MIG:

--accelerator-partition-type- Especifica la configuración MIG (por ejemplo, mig-4g.20gb)
--accelerator-partition-validation- Valida la compatibilidad entre los modelos y el perfil MIG (predeterminado: true)


hyp create hyp-jumpstart-endpoint \
  --version 1.1 \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p4d.24xlarge \
  --endpoint-name js-test \
  --accelerator-partition-type "mig-4g.20gb" \
  --accelerator-partition-validation true \
  --tls-certificate-output-s3-uri s3://my-bucket/certs/

Despliegue personalizado de terminales

Para la implementación a través de un punto final personalizado, utilice los campos existentes --resources-requests y habilite --resources-limits la funcionalidad del perfil MIG:


hyp create hyp-custom-endpoint \
  --namespace default \
  --metadata-name deepseek15b-mig-10-14-v2 \
  --endpoint-name deepseek15b-mig-endpoint \
  --instance-type ml.p4d.24xlarge \
  --model-name deepseek15b-mig \
  --model-source-type s3 \
  --model-location deep-seek-15b \
  --prefetch-enabled true \
  --tls-certificate-output-s3-uri s3://sagemaker-bucket \
  --image-uri lmcache/vllm-openai:v0.3.7 \
  --container-port 8080 \
  --model-volume-mount-path /opt/ml/model \
  --model-volume-mount-name model-weights \
  --s3-bucket-name model-storage-123456789 \
  --s3-region us-east-2 \
  --invocation-endpoint invocations \
  --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \
  --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \
  --env '{
    "OPTION_ROLLING_BATCH":"vllm",
    "SERVING_CHUNKED_READ_TIMEOUT":"480",
    "DJL_OFFLINE":"true",
    "NUM_SHARD":"1",
    "SAGEMAKER_PROGRAM":"inference.py",
    "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code",
    "MODEL_CACHE_ROOT":"/opt/ml/model",
    "SAGEMAKER_MODEL_SERVER_WORKERS":"1",
    "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600",
    "OPTION_TRUST_REMOTE_CODE":"true",
    "OPTION_ENABLE_REASONING":"true",
    "OPTION_REASONING_PARSER":"deepseek_r1",
    "SAGEMAKER_CONTAINER_LOG_LEVEL":"20",
    "SAGEMAKER_ENV":"1"
  }'

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ciclo de vida de

Resiliencia de clústeres