Envio de tarefas com o MIG - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Envio de tarefas com o MIG

Usando o Kubernetes YAML

apiVersion: batch/v1 kind: Job metadata: name: mig-job namespace: default spec: template: spec: containers: - name: pytorch image: pytorch/pytorch:latest resources: requests: nvidia.com/mig-1g.5gb: 1 cpu: "100m" memory: "128Mi" limits: nvidia.com/mig-1g.5gb: 1 restartPolicy: Never

Usando a HyperPod CLI

Use a HyperPod CLI para implantar JumpStart modelos com suporte MIG. O exemplo a seguir demonstra os novos parâmetros da CLI para particionamento de GPU:

# Deploy JumpStart model with MIG hyp create hyp-jumpstart-endpoint \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p5.48xlarge \ --accelerator-partition-type mig-2g.10gb \ --accelerator-partition-validation True \ --endpoint-name my-endpoint \ --tls-certificate-output-s3-uri s3://certificate-bucket/ \ --namespace default

Implantação do modelo com MIG

HyperPod A inferência permite implantar os modelos em perfis MIG por meio do Studio Classic e kubectl da CLI. HyperPod Para implantar JumpStart modelos emkubectl, CRDs chame os campos spec.server.acceleratorPartitionType para implantar o modelo no perfil MIG desejado. Executamos validações para garantir que os modelos possam ser implantados no perfil MIG selecionado no CRD. Caso queira desativar as verificações de validação do MIG, use spec.server.validations.acceleratorPartitionValidation paraFalse.

JumpStart Modelos

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: JumpStartModel metadata: name: deepseek-model namespace: default spec: sageMakerEndpoint: name: deepseek-endpoint model: modelHubName: SageMakerPublicHub modelId: deepseek-llm-r1-distill-qwen-1-5b server: acceleratorPartitionType: mig-7g.40gb instanceType: ml.p4d.24xlarge

Implante o modelo do Amazon S3 usando InferenceEndpointConfig

InferenceEndpointConfig permite que você implante um modelo personalizado do Amazon S3. Para implantar um modelo no MIG, spec.worker.resources mencione o perfil MIG em e. requests limits Consulte uma implantação simples abaixo:

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: s3 s3Storage: bucketName: my-model-bucket region: us-east-2 modelLocation: model-path worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Implante o modelo do FSx for Lustre usando InferenceEndpointConfig

InferenceEndpointConfig permite que você implante um modelo personalizado do FSx for Lustre. Para implantar um modelo no MIG, spec.worker.resources mencione o perfil MIG em e. requests limits Consulte uma implantação simples abaixo:

apiVersion: inference.sagemaker.aws.amazon.com/v1 kind: InferenceEndpointConfig metadata: name: custom-model namespace: default spec: replicas: 1 modelName: my-model endpointName: my-endpoint instanceType: ml.p4d.24xlarge modelSourceConfig: modelSourceType: fsx fsxStorage: fileSystemId: fs-xxxxx modelLocation: location-on-fsx worker: resources: requests: nvidia.com/mig-3g.20gb: 1 cpu: "5600m" memory: "10Gi" limits: nvidia.com/mig-3g.20gb: 1

Usando a interface do usuário do Studio Classic

Implantação de JumpStart modelos com o MIG

  1. Abra o Studio Classic e navegue até JumpStart

  2. Procure ou pesquise o modelo desejado (por exemplo, "DeepSeek“, “Llama”, etc.)

  3. Clique na placa do modelo e selecione Implantar

  4. Na configuração de implantação:

    • Escolha HyperPodcomo alvo de implantação

    • Selecione seu cluster habilitado para MIG no menu suspenso

    • Em Configuração de instância:

      • Selecione o tipo de instância (por exemplo,ml.p4d.24xlarge)

      • Escolha o tipo de partição de GPU entre as opções disponíveis

      • Defina as configurações de contagem de instâncias e escalonamento automático

  5. Revise e clique em Implantar

  6. Monitore o progresso da implantação na seção Endpoints

Opções de configuração do modelo

Configurações do endpoint:

  • Nome do endpoint - identificador exclusivo para sua implantação

  • Nome da variante - Variante de configuração (padrão: AllTraffic)

  • Tipo de instância: deve ser compatível com a partição GPU (série p)

  • Perfil MIG - partição GPU

  • Contagem inicial de instâncias - Número de instâncias a serem implantadas

  • Escalonamento automático - Ative o escalonamento dinâmico com base no tráfego

Configuração avançada:

  • Localização dos dados do modelo - Caminho do Amazon S3 para modelos personalizados

  • Imagem do contêiner - contêiner de inferência personalizado (opcional)

  • Variáveis de ambiente - configurações específicas do modelo

  • Configuração do Amazon VPC - Configurações de isolamento de rede

Monitorando modelos implantados

  1. Navegue até Studio Classic > Implantações > Endpoints

  2. Selecione seu endpoint habilitado para MIG

  3. Visualize métricas, incluindo:

    • Utilização de MIG - Uso por partição de GPU

    • Consumo de memória - Por partição de GPU

    • Latência de inferência - Tempo de processamento da solicitação

    • Taxa de transferência - Solicitações por segundo

  4. Configure os CloudWatch alarmes da Amazon para monitoramento automatizado

  5. Configure políticas de auto-scaling com base na utilização do MIG

Usando a HyperPod CLI

JumpStart Implantação

O JumpStart comando HyperPod CLI inclui dois novos campos para suporte ao MIG:

  • --accelerator-partition-type- Especifica a configuração MIG (por exemplo, mig-4g.20gb)

  • --accelerator-partition-validation- Valida a compatibilidade entre modelos e perfil MIG (padrão: verdadeiro)

hyp create hyp-jumpstart-endpoint \ --version 1.1 \ --model-id deepseek-llm-r1-distill-qwen-1-5b \ --instance-type ml.p4d.24xlarge \ --endpoint-name js-test \ --accelerator-partition-type "mig-4g.20gb" \ --accelerator-partition-validation true \ --tls-certificate-output-s3-uri s3://my-bucket/certs/

Implantação personalizada de endpoints

Para implantar por meio de endpoint personalizado, use os campos existentes --resources-requests e habilite --resources-limits a funcionalidade do perfil MIG:

hyp create hyp-custom-endpoint \ --namespace default \ --metadata-name deepseek15b-mig-10-14-v2 \ --endpoint-name deepseek15b-mig-endpoint \ --instance-type ml.p4d.24xlarge \ --model-name deepseek15b-mig \ --model-source-type s3 \ --model-location deep-seek-15b \ --prefetch-enabled true \ --tls-certificate-output-s3-uri s3://sagemaker-bucket \ --image-uri lmcache/vllm-openai:v0.3.7 \ --container-port 8080 \ --model-volume-mount-path /opt/ml/model \ --model-volume-mount-name model-weights \ --s3-bucket-name model-storage-123456789 \ --s3-region us-east-2 \ --invocation-endpoint invocations \ --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \ --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \ --env '{ "OPTION_ROLLING_BATCH":"vllm", "SERVING_CHUNKED_READ_TIMEOUT":"480", "DJL_OFFLINE":"true", "NUM_SHARD":"1", "SAGEMAKER_PROGRAM":"inference.py", "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code", "MODEL_CACHE_ROOT":"/opt/ml/model", "SAGEMAKER_MODEL_SERVER_WORKERS":"1", "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600", "OPTION_TRUST_REMOTE_CODE":"true", "OPTION_ENABLE_REASONING":"true", "OPTION_REASONING_PARSER":"deepseek_r1", "SAGEMAKER_CONTAINER_LOG_LEVEL":"20", "SAGEMAKER_ENV":"1" }'