Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés. # Envío de tareas con MIG **Topics** + [ ## Uso de Kubernetes YAML ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-kubectl) + [ ## Uso de HyperPod CLI ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-cli) + [ ## Despliegue de modelos con MIG ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-deployment) + [ ## Uso de HyperPod CLI ](#sagemaker-hyperpod-eks-gpu-partitioning-task-submission-hyperpod-cli) ## Uso de Kubernetes YAML ``` apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never ``` ## Uso de HyperPod CLI Utilice la HyperPod CLI para implementar JumpStart modelos compatibles con MIG. En el siguiente ejemplo, se muestran los nuevos parámetros de CLI para el particionamiento de la GPU: ``` # Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default ``` ## Despliegue de modelos con MIG HyperPod La inferencia permite implementar los modelos en perfiles MIG a través de Studio Classic y `kubectl` CLI HyperPod . Para implementar JumpStart los modelos`kubectl`, llame `spec.server.acceleratorPartitionType` a CRDs los campos para implementar el modelo en el perfil MIG deseado. Realizamos validaciones para garantizar que los modelos se puedan implementar en el perfil MIG seleccionado en el CRD. En caso de que desee deshabilitar las comprobaciones de validación de MIG, utilice esta opción. `spec.server.validations.acceleratorPartitionValidation` `False` ### JumpStart Modelos ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge ``` ### Implemente un modelo desde Amazon S3 mediante InferenceEndpointConfig InferenceEndpointConfig le permite implementar un modelo personalizado desde Amazon S3. Para implementar un modelo en MIG, `spec.worker.resources` mencione el perfil MIG en `requests` y. `limits` Consulte una implementación sencilla a continuación: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Implemente el modelo de FSx for Lustre usando InferenceEndpointConfig InferenceEndpointConfig le permite implementar un modelo personalizado desde FSx para Lustre. Para implementar un modelo en MIG, `spec.worker.resources` mencione el perfil MIG en y. `requests` `limits` Consulte una implementación sencilla a continuación: ``` apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1 ``` ### Uso de la interfaz de usuario clásica de Studio #### Implementación JumpStart de modelos con MIG 1. Abra **Studio Classic** y navegue hasta **JumpStart** 1. Busque o busque el modelo que desee (por ejemplo, "DeepSeek«, «Llama», etc.) 1. Haga clic en la tarjeta del modelo y seleccione **Desplegar** 1. En la configuración de despliegue: + Elija **HyperPod**como objetivo de despliegue + Seleccione su clúster compatible con MIG en el menú desplegable + En **Configuración de la instancia**: + Seleccione el tipo de instancia (por ejemplo,) `ml.p4d.24xlarge` + Elija el **tipo de partición de la GPU** entre las opciones disponibles + Configure los ajustes de **recuento de instancias** y **escalado automático** 1. **Revise y haga clic en Implementar** 1. Supervise el progreso de la implementación en la sección **Endpoints** #### Opciones de configuración del modelo **Configuración del punto final:** + **Nombre del punto** de conexión: identificador único para su implementación + **Nombre de la variante**: variante de configuración (predeterminada: AllTraffic) + **Tipo de instancia**: debe ser compatible con la partición de la GPU (serie p) + **Perfil MIG**: partición de GPU + **Recuento inicial de instancias**: número de instancias que se van a implementar + **Escalado automático**: habilita el escalado dinámico en función del tráfico **Configuración avanzada:** + **Ubicación de los datos del modelo**: ruta de Amazon S3 para modelos personalizados + **Imagen del contenedor**: contenedor de inferencias personalizado (opcional) + **Variables de entorno**: configuraciones específicas del modelo + Configuración de **Amazon VPC: configuración de** aislamiento de red #### Supervisión de los modelos implementados 1. **Vaya a **Studio Classic** > **Implementaciones > Terminales**** 1. Seleccione su terminal compatible con MIG 1. Vea las métricas, que incluyen: + **Utilización de MIG: uso** por partición de GPU + **Consumo de memoria**: por partición de GPU + **Latencia de inferencia: tiempo** de procesamiento de la solicitud + **Rendimiento**: solicitudes por segundo 1. Configura ** CloudWatch las alarmas de Amazon** para un monitoreo automatizado 1. Configure **políticas de autoscalamiento** basadas en la utilización de MIG ## Uso de HyperPod CLI ### JumpStart Despliegue El JumpStart comando HyperPod CLI incluye dos campos nuevos para la compatibilidad con MIG: + `--accelerator-partition-type`- Especifica la configuración MIG (por ejemplo, mig-4g.20gb) + `--accelerator-partition-validation`- Valida la compatibilidad entre los modelos y el perfil MIG (predeterminado: true) ``` hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/ ``` ### Despliegue personalizado de terminales Para la implementación a través de un punto final personalizado, utilice los campos existentes `--resources-requests` y habilite `--resources-limits` la funcionalidad del perfil MIG: ``` hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }' ```