As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Envio de tarefas com o MIG
Tópicos
Usando o Kubernetes YAML
apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never
Usando a HyperPod CLI
Use a HyperPod CLI para implantar JumpStart modelos com suporte MIG. O exemplo a seguir demonstra os novos parâmetros da CLI para particionamento de GPU:
# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-namemy-endpoint\ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default
Implantação do modelo com MIG
HyperPod A inferência permite implantar os modelos em perfis MIG por meio do Studio Classic e kubectl da CLI. HyperPod Para implantar JumpStart modelos emkubectl, CRDs chame os campos spec.server.acceleratorPartitionType para implantar o modelo no perfil MIG desejado. Executamos validações para garantir que os modelos possam ser implantados no perfil MIG selecionado no CRD. Caso queira desativar as verificações de validação do MIG, use spec.server.validations.acceleratorPartitionValidation paraFalse.
JumpStart Modelos
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge
Implante o modelo do Amazon S3 usando InferenceEndpointConfig
InferenceEndpointConfig permite que você implante um modelo personalizado do Amazon S3. Para implantar um modelo no MIG, spec.worker.resources mencione o perfil MIG em e. requests limits Consulte uma implantação simples abaixo:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName:my-model-bucketregion:us-east-2modelLocation:model-pathworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Implante o modelo do FSx for Lustre usando InferenceEndpointConfig
InferenceEndpointConfig permite que você implante um modelo personalizado do FSx for Lustre. Para implantar um modelo no MIG, spec.worker.resources mencione o perfil MIG em e. requests limits Consulte uma implantação simples abaixo:
apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId:fs-xxxxxmodelLocation:location-on-fsxworker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1
Usando a interface do usuário do Studio Classic
Implantação de JumpStart modelos com o MIG
-
Abra o Studio Classic e navegue até JumpStart
-
Procure ou pesquise o modelo desejado (por exemplo, "DeepSeek“, “Llama”, etc.)
-
Clique na placa do modelo e selecione Implantar
-
Na configuração de implantação:
-
Escolha HyperPodcomo alvo de implantação
-
Selecione seu cluster habilitado para MIG no menu suspenso
-
Em Configuração de instância:
-
Selecione o tipo de instância (por exemplo,
ml.p4d.24xlarge) -
Escolha o tipo de partição de GPU entre as opções disponíveis
-
Defina as configurações de contagem de instâncias e escalonamento automático
-
-
-
Revise e clique em Implantar
-
Monitore o progresso da implantação na seção Endpoints
Opções de configuração do modelo
Configurações do endpoint:
-
Nome do endpoint - identificador exclusivo para sua implantação
-
Nome da variante - Variante de configuração (padrão: AllTraffic)
-
Tipo de instância: deve ser compatível com a partição GPU (série p)
-
Perfil MIG - partição GPU
-
Contagem inicial de instâncias - Número de instâncias a serem implantadas
-
Escalonamento automático - Ative o escalonamento dinâmico com base no tráfego
Configuração avançada:
-
Localização dos dados do modelo - Caminho do Amazon S3 para modelos personalizados
-
Imagem do contêiner - contêiner de inferência personalizado (opcional)
-
Variáveis de ambiente - configurações específicas do modelo
-
Configuração do Amazon VPC - Configurações de isolamento de rede
Monitorando modelos implantados
-
Navegue até Studio Classic > Implantações > Endpoints
-
Selecione seu endpoint habilitado para MIG
-
Visualize métricas, incluindo:
-
Utilização de MIG - Uso por partição de GPU
-
Consumo de memória - Por partição de GPU
-
Latência de inferência - Tempo de processamento da solicitação
-
Taxa de transferência - Solicitações por segundo
-
-
Configure os CloudWatch alarmes da Amazon para monitoramento automatizado
-
Configure políticas de auto-scaling com base na utilização do MIG
Usando a HyperPod CLI
JumpStart Implantação
O JumpStart comando HyperPod CLI inclui dois novos campos para suporte ao MIG:
-
--accelerator-partition-type- Especifica a configuração MIG (por exemplo, mig-4g.20gb) -
--accelerator-partition-validation- Valida a compatibilidade entre modelos e perfil MIG (padrão: verdadeiro)
hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uris3://my-bucket/certs/
Implantação personalizada de endpoints
Para implantar por meio de endpoint personalizado, use os campos existentes --resources-requests e habilite --resources-limits a funcionalidade do perfil MIG:
hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket\ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-namemodel-storage-123456789\ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'