Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Envío de tareas con MIG
Uso de Kubernetes YAML
apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never
Uso de HyperPod CLI
Utilice la HyperPod CLI para implementar JumpStart modelos compatibles con MIG. En el siguiente ejemplo, se muestran los nuevos parámetros de CLI para el particionamiento de la GPU:
# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-namemy-endpoint\ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default
Despliegue de modelos con MIG
HyperPod La inferencia permite implementar los modelos en los perfiles MIG a través de Studio Classic y kubectl CLI HyperPod . Para implementar JumpStart los modeloskubectl, llame spec.server.acceleratorPartitionType a CRDs los campos para implementar el modelo en el perfil MIG deseado. Realizamos validaciones para garantizar que los modelos se puedan implementar en el perfil MIG seleccionado en el CRD. En caso de que desee deshabilitar las comprobaciones de validación de MIG, utilice esta opción. spec.server.validations.acceleratorPartitionValidation False
JumpStart Modelos
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge
Implemente un modelo desde Amazon S3 mediante InferenceEndpointConfig
InferenceEndpointConfig le permite implementar un modelo personalizado desde Amazon S3. Para implementar un modelo en MIG, spec.worker.resources mencione el perfil MIG en requests y. limits Consulte una implementación sencilla a continuación:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName:my-model-bucketregion:us-east-2modelLocation:model-pathworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Implemente el modelo de FSx for Lustre usando InferenceEndpointConfig
InferenceEndpointConfig le permite implementar un modelo personalizado desde FSx para Lustre. Para implementar un modelo en MIG, spec.worker.resources mencione el perfil MIG en y. requests limits Consulte una implementación sencilla a continuación:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId:fs-xxxxxmodelLocation:location-on-fsxworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Uso de la interfaz de usuario clásica de Studio
Implementación JumpStart de modelos con MIG
-
Abra Studio Classic y navegue hasta JumpStart
-
Busque o busque el modelo que desee (por ejemplo, "DeepSeek«, «Llama», etc.)
-
Haga clic en la tarjeta del modelo y seleccione Desplegar
-
En la configuración de despliegue:
-
Elija HyperPodcomo objetivo de despliegue
-
Seleccione su clúster compatible con MIG en el menú desplegable
-
En Configuración de la instancia:
-
Seleccione el tipo de instancia (por ejemplo,)
ml.p4d.24xlarge -
Elija el tipo de partición de la GPU entre las opciones disponibles
-
Configure los ajustes de recuento de instancias y escalado automático
-
-
-
Revise y haga clic en Implementar
-
Supervise el progreso de la implementación en la sección Endpoints
Opciones de configuración del modelo
Configuración del punto final:
-
Nombre del punto de conexión: identificador único para su implementación
-
Nombre de la variante: variante de configuración (predeterminada: AllTraffic)
-
Tipo de instancia: debe ser compatible con la partición de la GPU (serie p)
-
Perfil MIG: partición de GPU
-
Recuento inicial de instancias: número de instancias que se van a implementar
-
Escalado automático: habilita el escalado dinámico en función del tráfico
Configuración avanzada:
-
Ubicación de los datos del modelo: ruta de Amazon S3 para modelos personalizados
-
Imagen del contenedor: contenedor de inferencias personalizado (opcional)
-
Variables de entorno: configuraciones específicas del modelo
-
Configuración de Amazon VPC: configuración de aislamiento de red
Supervisión de los modelos implementados
-
Vaya a Studio Classic > Implementaciones > Terminales
-
Seleccione su terminal compatible con MIG
-
Vea las métricas, que incluyen:
-
Utilización de MIG: uso por partición de GPU
-
Consumo de memoria: por partición de GPU
-
Latencia de inferencia: tiempo de procesamiento de la solicitud
-
Rendimiento: solicitudes por segundo
-
-
Configura CloudWatch las alarmas de Amazon para un monitoreo automatizado
-
Configure políticas de autoscalamiento basadas en la utilización de MIG
Uso de HyperPod CLI
JumpStart Despliegue
El JumpStart comando HyperPod CLI incluye dos campos nuevos para la compatibilidad con MIG:
-
--accelerator-partition-type- Especifica la configuración MIG (por ejemplo, mig-4g.20gb) -
--accelerator-partition-validation- Valida la compatibilidad entre los modelos y el perfil MIG (predeterminado: true)
hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uris3://my-bucket/certs/
Despliegue personalizado de terminales
Para la implementación a través de un punto final personalizado, utilice los campos existentes --resources-requests y habilite --resources-limits la funcionalidad del perfil MIG:
hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket\ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-namemodel-storage-123456789\ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'