# Interface do SageMaker
<a name="nova-model-sagemaker-inference"></a>

Os modelos personalizados do Amazon Nova agora estão disponíveis na inferência do SageMaker. Com o Amazon Nova no SageMaker, você pode começar a obter predições ou inferências dos modelos treinados personalizados do Amazon Nova. O SageMaker oferece uma ampla seleção de infraestrutura de machine learning e opções de implantação de modelos para ajudar a atender a todas as suas necessidades de inferência de ML. Com a inferência do SageMaker, você pode escalar a implantação de modelos, gerenciar os modelos em produção de forma mais eficaz e reduzir a carga operacional.

O SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência e endpoints assíncronos para lotes de solicitações. Ao utilizar a opção de inferência apropriada para o caso de uso, você pode garantir a eficiência da implantação e inferência do modelo. Para obter mais informações sobre a inferência do SageMaker, consulte [Implantar modelos para inferência](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html).

**Importante**  
Somente modelos personalizados full-rank e modelos mesclados com LoRA são compatíveis com a inferência do SageMaker. Para modelos LoRA e modelos de base não mesclados, use o Amazon Bedrock.

## Recursos
<a name="nova-sagemaker-inference-features"></a>

Os seguintes recursos estão disponíveis para modelos do Amazon Nova na inferência do SageMaker:

**Recursos dos modelos**
+ Geração de texto

**Implantação e escalabilidade**
+ Endpoints em tempo real com seleção de instância personalizada
+ Ajuste de escala automático: ajuste automaticamente a capacidade com base nos padrões de tráfego para otimizar os custos e a utilização da GPU. Para obter mais informações, consulte [Ajuste de escala automático de modelos do Amazon SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html).
+ Suporte à API de streaming para geração de tokens em tempo real

**Monitoramento e otimização**
+ Integração do Amazon CloudWatch para monitoramento e alertas
+ Otimização de latência com reconhecimento de zonas de disponibilidade por meio da configuração de VPC

**ferramentas de desenvolvimento da**
+ Suporte da AWS CLI: para obter mais informações, consulte [Referência de comandos da AWS CLI para o SageMaker](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/).
+  Integração de cadernos via suporte do SDK

## Modelos e instâncias compatíveis
<a name="nova-sagemaker-inference-supported"></a>

Ao criar seus endpoints de inferência do SageMaker, você pode definir duas variáveis de ambiente para configurar sua implantação: `CONTEXT_LENGTH` e `MAX_CONCURRENCY`.
+ `CONTEXT_LENGTH`: tamanho máximo total do token (entrada \$1 saída) por solicitação
+ `MAX_CONCURRENCY`: número máximo de solicitações simultâneas atendidas pelo endpoint

A tabela a seguir lista os modelos compatíveis do Amazon Nova, os tipos de instâncias e as configurações compatíveis. Os valores de MAX\$1CONCURRENCY representam a simultaneidade máxima suportada para cada configuração CONTEXT\$1LENGTH:


****  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/nova/latest/nova2-userguide/nova-model-sagemaker-inference.html)

**nota**  
Os valores de MAX\$1CONCURRENCY mostrados são limites máximos para cada configuração CONTEXT\$1LENGTH. Você pode usar tamanhos de contexto menores com a mesma simultaneidade, mas exceder esses valores fará com que a criação do endpoint do SageMaker falhe.  
Por exemplo, no Amazon Nova Micro com ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000`, `MAX_CONCURRENCY=32` → Válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=32` → Rejeitado (o limite de simultaneidade é 16 no tamanho de contexto 8000)
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=4` → Válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=16` → Válido
`CONTEXT_LENGTH=10000` → Rejeitado (a extensão máxima do contexto é 8.000 nesta instância)

## Regiões do AWS compatíveis
<a name="nova-sagemaker-inference-regions"></a>

A tabela abaixo lista as regiões da AWS em que os modelos do Amazon Nova estão disponíveis na inferência do SageMaker:


****  

| Nome da Região | Código da região | Disponibilidade | 
| --- | --- | --- | 
| Leste dos EUA (Norte da Virgínia) | us-east-1 | Available (Disponível) | 
| Oeste dos EUA (Oregon) | us-west-2 | Available (Disponível) | 

## Imagens de contêineres compatíveis
<a name="nova-sagemaker-inference-container-images"></a>

A tabela a seguir lista os URIs de imagens de contêineres para modelos do Amazon Nova na inferência do SageMaker por região. Duas tags de imagem estão disponíveis para cada região: uma tag versionada (`v1.0.0`) e uma tag mais recente (`SM-Inference-latest`). Para implantações de produção, recomendamos usar a tag versionada.


****  

| Região | URIs das imagens de contêineres | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Práticas recomendadas
<a name="nova-sagemaker-inference-best-practices"></a>

Para verificar as práticas recomendadas de implantação e gerenciamento de modelos no SageMaker, consulte [Práticas recomendadas do SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html).

## Suporte
<a name="nova-sagemaker-inference-support"></a>

Para obter suporte e resolver problemas com os modelos do Amazon Nova na inferência do SageMaker, entre em contato com o AWS Support pelo console ou seu gerente de conta da AWS.

**Topics**
+ [Recursos](#nova-sagemaker-inference-features)
+ [Modelos e instâncias compatíveis](#nova-sagemaker-inference-supported)
+ [Regiões do AWS compatíveis](#nova-sagemaker-inference-regions)
+ [Imagens de contêineres compatíveis](#nova-sagemaker-inference-container-images)
+ [Práticas recomendadas](#nova-sagemaker-inference-best-practices)
+ [Suporte](#nova-sagemaker-inference-support)
+ [Conceitos básicos](nova-sagemaker-inference-getting-started.md)
+ [Referência da API](nova-sagemaker-inference-api-reference.md)
+ [Avaliar modelos hospedados na inferência do SageMaker](nova-eval-on-sagemaker-inference.md)
+ [Implantação de modelos do Amazon Nova Forge na detecção de abusos da Inferência do Amazon SageMaker](nova-sagemaker-inference-abuse-detection.md)