Interface do SageMaker
Os modelos personalizados do Amazon Nova agora estão disponíveis na inferência do SageMaker. Com o Amazon Nova no SageMaker, você pode começar a obter predições ou inferências dos modelos treinados personalizados do Amazon Nova. O SageMaker oferece uma ampla seleção de infraestrutura de machine learning e opções de implantação de modelos para ajudar a atender a todas as suas necessidades de inferência de ML. Com a inferência do SageMaker, você pode escalar a implantação de modelos, gerenciar os modelos em produção de forma mais eficaz e reduzir a carga operacional.
O SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência e endpoints assíncronos para lotes de solicitações. Ao utilizar a opção de inferência apropriada para o caso de uso, você pode garantir a eficiência da implantação e inferência do modelo. Para obter mais informações sobre a inferência do SageMaker, consulte Implantar modelos para inferência.
Importante
Somente modelos personalizados full-rank e modelos mesclados com LoRA são compatíveis com a inferência do SageMaker. Para modelos LoRA e modelos de base não mesclados, use o Amazon Bedrock.
Recursos
Os seguintes recursos estão disponíveis para modelos do Amazon Nova na inferência do SageMaker:
Recursos dos modelos
-
Geração de texto
Implantação e escalabilidade
-
Endpoints em tempo real com seleção de instância personalizada
-
Ajuste de escala automático: ajuste automaticamente a capacidade com base nos padrões de tráfego para otimizar os custos e a utilização da GPU. Para obter mais informações, consulte Ajuste de escala automático de modelos do Amazon SageMaker.
-
Suporte à API de streaming para geração de tokens em tempo real
Monitoramento e otimização
-
Integração do Amazon CloudWatch para monitoramento e alertas
-
Otimização de latência com reconhecimento de zonas de disponibilidade por meio da configuração de VPC
ferramentas de desenvolvimento da
-
Suporte da AWS CLI: para obter mais informações, consulte Referência de comandos da AWS CLI para o SageMaker.
-
Integração de cadernos via suporte do SDK
Modelos e instâncias compatíveis
Ao criar seus endpoints de inferência do SageMaker, você pode definir duas variáveis de ambiente para configurar sua implantação: CONTEXT_LENGTH e MAX_CONCURRENCY.
-
CONTEXT_LENGTH: tamanho máximo total do token (entrada + saída) por solicitação -
MAX_CONCURRENCY: número máximo de solicitações simultâneas atendidas pelo endpoint
A tabela a seguir lista os modelos compatíveis do Amazon Nova, os tipos de instâncias e as configurações compatíveis. Os valores de MAX_CONCURRENCY representam a simultaneidade máxima suportada para cada configuração CONTEXT_LENGTH:
| Modelo | Tipo de instância | Configurações compatíveis |
|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16 |
| ml.g5.24xlarge | CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 | |
| ml.g6.12xlarge |
CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16 |
|
| ml.g6.24xlarge | CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 | |
| ml.g6.48xlarge | CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 | |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2 CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1 |
|
| Amazon Nova Lite | ml.g6.48xlarge |
CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 16 |
| ml.p5.48xlarge |
CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2 CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1 |
|
| Nova 2 Lite | ml.p5.48xlarge |
CONTEXT_LENGTH: 8000, MAX_CONCURRENCY: 32 CONTEXT_LENGTH: 16000, MAX_CONCURRENCY: 2 CONTEXT_LENGTH: 24000, MAX_CONCURRENCY: 1 |
nota
Os valores de MAX_CONCURRENCY mostrados são limites máximos para cada configuração CONTEXT_LENGTH. Você pode usar tamanhos de contexto menores com a mesma simultaneidade, mas exceder esses valores fará com que a criação do endpoint do SageMaker falhe.
Por exemplo, no Amazon Nova Micro com ml.g5.12xlarge:
-
CONTEXT_LENGTH=2000,MAX_CONCURRENCY=32→ Válido -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=32→ Rejeitado (o limite de simultaneidade é 16 no tamanho de contexto 8000) -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=4→ Válido -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=16→ Válido -
CONTEXT_LENGTH=10000→ Rejeitado (o contexto máximo é 8000 nesta instância)
Regiões do AWS compatíveis
A tabela abaixo lista as regiões da AWS em que os modelos do Amazon Nova estão disponíveis na inferência do SageMaker:
| Nome da Região | Código da região | Disponibilidade |
|---|---|---|
| Leste dos EUA (Norte da Virgínia) | us-east-1 | Available (Disponível) |
| Oeste dos EUA (Oregon) | us-west-2 | Available (Disponível) |
Imagens de contêineres compatíveis
A tabela a seguir lista os URIs de imagens de contêineres para modelos do Amazon Nova na inferência do SageMaker por região. Duas tags de imagem estão disponíveis para cada região: uma tag versionada (v1.0.0) e uma tag mais recente (SM-Inference-latest). Para implantações de produção, recomendamos usar a tag versionada.
| Região | URIs das imagens de contêineres |
|---|---|
| us-east-1 |
|
| us-west-2 |
|
Práticas recomendadas
Para verificar as práticas recomendadas de implantação e gerenciamento de modelos no SageMaker, consulte Práticas recomendadas do SageMaker.
Suporte
Para obter suporte e resolver problemas com os modelos do Amazon Nova na inferência do SageMaker, entre em contato com o AWS Support pelo console ou seu gerente de conta da AWS.