Usando o Kubernetes YAML Usando a HyperPod CLI Implantação do modelo com MIG Usando a HyperPod CLI

Envio de tarefas com o MIG

Tópicos

Usando o Kubernetes YAML
Usando a HyperPod CLI
Implantação do modelo com MIG
Usando a HyperPod CLI

Usando o Kubernetes YAML


apiVersion: batch/v1
kind: Job
metadata:
  name: mig-job
  namespace: default
spec:
  template:
    spec:
      containers:
      - name: pytorch
        image: pytorch/pytorch:latest
        resources:
          requests:
            nvidia.com/mig-1g.5gb: 1
            cpu: "100m"
            memory: "128Mi"
          limits:
            nvidia.com/mig-1g.5gb: 1
      restartPolicy: Never

Usando a HyperPod CLI

Use a HyperPod CLI para implantar JumpStart modelos com suporte MIG. O exemplo a seguir demonstra os novos parâmetros da CLI para particionamento de GPU:


# Deploy JumpStart model with MIG
hyp create hyp-jumpstart-endpoint \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p5.48xlarge \
  --accelerator-partition-type mig-2g.10gb \
  --accelerator-partition-validation True \
  --endpoint-name my-endpoint \
  --tls-certificate-output-s3-uri s3://certificate-bucket/ \
  --namespace default

Implantação do modelo com MIG

HyperPod A inferência permite implantar os modelos em perfis MIG por meio do Studio Classic e kubectl da CLI. HyperPod Para implantar JumpStart modelos emkubectl, CRDs chame os campos spec.server.acceleratorPartitionType para implantar o modelo no perfil MIG desejado. Executamos validações para garantir que os modelos possam ser implantados no perfil MIG selecionado no CRD. Caso queira desativar as verificações de validação do MIG, use spec.server.validations.acceleratorPartitionValidation paraFalse.

JumpStart Modelos


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: JumpStartModel
metadata:
  name: deepseek-model
  namespace: default
spec:
  sageMakerEndpoint:
    name: deepseek-endpoint
  model:
    modelHubName: SageMakerPublicHub
    modelId: deepseek-llm-r1-distill-qwen-1-5b
  server:
    acceleratorPartitionType: mig-7g.40gb
    instanceType: ml.p4d.24xlarge

Implante o modelo do Amazon S3 usando InferenceEndpointConfig

InferenceEndpointConfig permite que você implante um modelo personalizado do Amazon S3. Para implantar um modelo no MIG, spec.worker.resources mencione o perfil MIG em e. requests limits Consulte uma implantação simples abaixo:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: s3
    s3Storage:
      bucketName: my-model-bucket
      region: us-east-2
    modelLocation: model-path
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Implante o modelo do FSx for Lustre usando InferenceEndpointConfig

InferenceEndpointConfig permite que você implante um modelo personalizado do FSx for Lustre. Para implantar um modelo no MIG, spec.worker.resources mencione o perfil MIG em e. requests limits Consulte uma implantação simples abaixo:


apiVersion: inference.sagemaker.aws.amazon.com/v1
kind: InferenceEndpointConfig
metadata:
  name: custom-model
  namespace: default
spec:
  replicas: 1
  modelName: my-model
  endpointName: my-endpoint
  instanceType: ml.p4d.24xlarge
  modelSourceConfig:
    modelSourceType: fsx
    fsxStorage:
      fileSystemId: fs-xxxxx
    modelLocation: location-on-fsx
  worker:
    resources:
      requests:
        nvidia.com/mig-3g.20gb: 1
        cpu: "5600m"
        memory: "10Gi"
      limits:
        nvidia.com/mig-3g.20gb: 1

Usando a interface do usuário do Studio Classic

Implantação de JumpStart modelos com o MIG

Abra o Studio Classic e navegue até JumpStart
Procure ou pesquise o modelo desejado (por exemplo, "DeepSeek“, “Llama”, etc.)
Clique na placa do modelo e selecione Implantar
Na configuração de implantação:
- Escolha HyperPodcomo alvo de implantação
- Selecione seu cluster habilitado para MIG no menu suspenso
- Em Configuração de instância:
  - Selecione o tipo de instância (por exemplo,ml.p4d.24xlarge)
  - Escolha o tipo de partição de GPU entre as opções disponíveis
  - Defina as configurações de contagem de instâncias e escalonamento automático
Revise e clique em Implantar
Monitore o progresso da implantação na seção Endpoints

Opções de configuração do modelo

Configurações do endpoint:

Nome do endpoint - identificador exclusivo para sua implantação
Nome da variante - Variante de configuração (padrão: AllTraffic)
Tipo de instância: deve ser compatível com a partição GPU (série p)
Perfil MIG - partição GPU
Contagem inicial de instâncias - Número de instâncias a serem implantadas
Escalonamento automático - Ative o escalonamento dinâmico com base no tráfego

Configuração avançada:

Localização dos dados do modelo - Caminho do Amazon S3 para modelos personalizados
Imagem do contêiner - contêiner de inferência personalizado (opcional)
Variáveis de ambiente - configurações específicas do modelo
Configuração do Amazon VPC - Configurações de isolamento de rede

Monitorando modelos implantados

Navegue até Studio Classic > Implantações > Endpoints
Selecione seu endpoint habilitado para MIG
Visualize métricas, incluindo:
- Utilização de MIG - Uso por partição de GPU
- Consumo de memória - Por partição de GPU
- Latência de inferência - Tempo de processamento da solicitação
- Taxa de transferência - Solicitações por segundo
Configure os CloudWatch alarmes da Amazon para monitoramento automatizado
Configure políticas de auto-scaling com base na utilização do MIG

Usando a HyperPod CLI

JumpStart Implantação

O JumpStart comando HyperPod CLI inclui dois novos campos para suporte ao MIG:

--accelerator-partition-type- Especifica a configuração MIG (por exemplo, mig-4g.20gb)
--accelerator-partition-validation- Valida a compatibilidade entre modelos e perfil MIG (padrão: verdadeiro)


hyp create hyp-jumpstart-endpoint \
  --version 1.1 \
  --model-id deepseek-llm-r1-distill-qwen-1-5b \
  --instance-type ml.p4d.24xlarge \
  --endpoint-name js-test \
  --accelerator-partition-type "mig-4g.20gb" \
  --accelerator-partition-validation true \
  --tls-certificate-output-s3-uri s3://my-bucket/certs/

Implantação personalizada de endpoints

Para implantar por meio de endpoint personalizado, use os campos existentes --resources-requests e habilite --resources-limits a funcionalidade do perfil MIG:


hyp create hyp-custom-endpoint \
  --namespace default \
  --metadata-name deepseek15b-mig-10-14-v2 \
  --endpoint-name deepseek15b-mig-endpoint \
  --instance-type ml.p4d.24xlarge \
  --model-name deepseek15b-mig \
  --model-source-type s3 \
  --model-location deep-seek-15b \
  --prefetch-enabled true \
  --tls-certificate-output-s3-uri s3://sagemaker-bucket \
  --image-uri lmcache/vllm-openai:v0.3.7 \
  --container-port 8080 \
  --model-volume-mount-path /opt/ml/model \
  --model-volume-mount-name model-weights \
  --s3-bucket-name model-storage-123456789 \
  --s3-region us-east-2 \
  --invocation-endpoint invocations \
  --resources-requests '{"cpu":"5600m","memory":"10Gi","nvidia.com/mig-3g.20gb":"1"}' \
  --resources-limits '{"nvidia.com/mig-3g.20gb":"1"}' \
  --env '{
    "OPTION_ROLLING_BATCH":"vllm",
    "SERVING_CHUNKED_READ_TIMEOUT":"480",
    "DJL_OFFLINE":"true",
    "NUM_SHARD":"1",
    "SAGEMAKER_PROGRAM":"inference.py",
    "SAGEMAKER_SUBMIT_DIRECTORY":"/opt/ml/model/code",
    "MODEL_CACHE_ROOT":"/opt/ml/model",
    "SAGEMAKER_MODEL_SERVER_WORKERS":"1",
    "SAGEMAKER_MODEL_SERVER_TIMEOUT":"3600",
    "OPTION_TRUST_REMOTE_CODE":"true",
    "OPTION_ENABLE_REASONING":"true",
    "OPTION_REASONING_PARSER":"deepseek_r1",
    "SAGEMAKER_CONTAINER_LOG_LEVEL":"20",
    "SAGEMAKER_ENV":"1"
  }'

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Ciclo de vida do nó

Resiliência de clusters