Interface do SageMaker - Amazon Nova

Interface do SageMaker

Os modelos personalizados do Amazon Nova agora estão disponíveis na inferência do SageMaker. Com o Amazon Nova no SageMaker, você pode começar a obter predições ou inferências dos modelos treinados personalizados do Amazon Nova. O SageMaker oferece uma ampla seleção de infraestrutura de machine learning e opções de implantação de modelos para ajudar a atender a todas as suas necessidades de inferência de ML. Com a inferência do SageMaker, você pode escalar a implantação de modelos, gerenciar os modelos em produção de forma mais eficaz e reduzir a carga operacional.

O SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência e endpoints assíncronos para lotes de solicitações. Ao utilizar a opção de inferência apropriada para o caso de uso, você pode garantir a eficiência da implantação e inferência do modelo. Para obter mais informações sobre a inferência do SageMaker, consulte Implantar modelos para inferência.

Importante

Somente modelos personalizados full-rank e modelos mesclados com LoRA são compatíveis com a inferência do SageMaker. Para modelos LoRA e modelos de base não mesclados, use o Amazon Bedrock.

Recursos

Os seguintes recursos estão disponíveis para modelos do Amazon Nova na inferência do SageMaker:

Recursos dos modelos

  • Geração de texto

Implantação e escalabilidade

  • Endpoints em tempo real com seleção de instância personalizada

  • Ajuste de escala automático: ajuste automaticamente a capacidade com base nos padrões de tráfego para otimizar os custos e a utilização da GPU. Para obter mais informações, consulte Ajuste de escala automático de modelos do Amazon SageMaker.

  • Suporte à API de streaming para geração de tokens em tempo real

Monitoramento e otimização

  • Integração do Amazon CloudWatch para monitoramento e alertas

  • Otimização de latência com reconhecimento de zonas de disponibilidade por meio da configuração de VPC

ferramentas de desenvolvimento da

Modelos e instâncias compatíveis

Ao criar seus endpoints de inferência do SageMaker, você pode definir duas variáveis de ambiente para configurar sua implantação: CONTEXT_LENGTH e MAX_CONCURRENCY.

  • CONTEXT_LENGTH: tamanho máximo total do token (entrada + saída) por solicitação

  • MAX_CONCURRENCY: número máximo de solicitações simultâneas atendidas pelo endpoint

A tabela a seguir lista os modelos compatíveis do Amazon Nova, os tipos de instâncias e as configurações compatíveis. Os valores de MAX_CONCURRENCY representam a simultaneidade máxima suportada para cada configuração CONTEXT_LENGTH:

Modelo Tipo de instância Configurações compatíveis
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16

ml.g5.24xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32
ml.g6.12xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16

ml.g6.24xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32
ml.g6.48xlarge CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32
ml.p5.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1

Amazon Nova Lite ml.g6.48xlarge

CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16

ml.p5.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1

Nova 2 Lite ml.p5.48xlarge

CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1

nota

Os valores de MAX_CONCURRENCY mostrados são limites máximos para cada configuração CONTEXT_LENGTH. Você pode usar tamanhos de contexto menores com a mesma simultaneidade, mas exceder esses valores fará com que a criação do endpoint do SageMaker falhe.

Por exemplo, no Amazon Nova Micro com ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=32 → Válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=32 → Rejeitado (o limite de simultaneidade é 16 no tamanho de contexto 8000)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → Válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=16 → Válido

  • CONTEXT_LENGTH=10000 → Rejeitado (o contexto máximo é 8000 nesta instância)

Regiões do AWS compatíveis

A tabela abaixo lista as regiões da AWS em que os modelos do Amazon Nova estão disponíveis na inferência do SageMaker:

Nome da Região Código da região Disponibilidade
Leste dos EUA (Norte da Virgínia) us-east-1 Available (Disponível)
Oeste dos EUA (Oregon) us-west-2 Available (Disponível)

Imagens de contêineres compatíveis

A tabela a seguir lista os URIs de imagens de contêineres para modelos do Amazon Nova na inferência do SageMaker por região. Duas tags de imagem estão disponíveis para cada região: uma tag versionada (v1.0.0) e uma tag mais recente (SM-Inference-latest). Para implantações de produção, recomendamos usar a tag versionada.

Região URIs das imagens de contêineres
us-east-1

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest

us-west-2

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:v1.0.0

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Práticas recomendadas

Para verificar as práticas recomendadas de implantação e gerenciamento de modelos no SageMaker, consulte Práticas recomendadas do SageMaker.

Suporte

Para obter suporte e resolver problemas com os modelos do Amazon Nova na inferência do SageMaker, entre em contato com o AWS Support pelo console ou seu gerente de conta da AWS.