

# Inferencias de SageMaker
<a name="nova-model-sagemaker-inference"></a>

Los modelos personalizados de Amazon Nova ya están disponibles para Inferencias de SageMaker. Con Amazon Nova en SageMaker, puede empezar a obtener predicciones o inferencias a partir de sus modelos de Amazon Nova personalizados y entrenados. Sagemaker ofrece una amplia selección de opciones de implementación de modelos e infraestructuras de ML para ayudarle a satisfacer todas sus necesidades de inferencia de ML. Con Inferencias de SageMaker, puede escalar la implementación de modelos, administrar modelos de forma más eficaz en la fase de producción y reducir la carga operativa.

SageMaker le proporciona varias opciones de inferencia, como, por ejemplo, puntos de conexión en tiempo real para obtener inferencias de baja latencia y puntos de conexión asíncronos para lotes de solicitudes. Al utilizar la opción de inferencia adecuada para el caso de uso, puede garantizar una implementación e inferencia eficaces de los modelos. Para obtener más información sobre Inferencias de SageMaker, consulte [Deploy models for inference](https://docs.aws.amazon.com//sagemaker/latest/dg/deploy-model.html).

**importante**  
Solo los modelos personalizados de rango completo y los modelos fusionados con LoRA son compatibles con Inferencias de SageMaker. En el caso de los modelos LoRA no fusionados y los modelos base, utilice Amazon Bedrock.

## Características
<a name="nova-sagemaker-inference-features"></a>

Las siguientes características están disponibles para los modelos de Amazon Nova en Inferencias de SageMaker:

**Capacidades del modelo**
+ Generación de texto

**Implementación y escalado**
+ Puntos de conexión en tiempo real con selección de instancias personalizada.
+ Escalado automático: ajuste automáticamente la capacidad en función de los patrones de tráfico para optimizar los costos y el uso de la GPU. Para obtener información, consulte [Automatically Scale Amazon SageMaker Models](https://docs.aws.amazon.com//sagemaker/latest/dg/endpoint-auto-scaling.html)
+ Compatibilidad con API de transmisión para la generación de tokens en tiempo real.

**Supervisión y optimización**
+ Integración de Amazon CloudWatch para supervisar y configurar alertas.
+ Optimización de la latencia con reconocimiento de zonas de disponibilidad mediante la configuración de VPC.

**Herramientas de desarrollo de**
+ Compatibilidad con AWS CLI: para obtener más información, consulte [AWS CLI Command Reference for SageMaker](https://docs.aws.amazon.com/cli/latest/reference/sagemaker/).
+  Integración de cuadernos mediante la compatibilidad con el SDK.

## Modelos e instancias compatibles
<a name="nova-sagemaker-inference-supported"></a>

Al crear los puntos de conexión de Inferencias de SageMaker, puede definir dos variables de entorno para configurar su implementación: `CONTEXT_LENGTH` y `MAX_CONCURRENCY`.
+ `CONTEXT_LENGTH`: longitud máxima total del token (entrada \$1 salida) por solicitud
+ `MAX_CONCURRENCY`: número máximo de solicitudes simultáneas que atenderá el punto de conexión

En la siguiente tabla se muestran los modelos de Amazon Nova admitidos, los tipos de instancias y las configuraciones admitidas. Los valores de MAX\$1CONCURRENCY representan la simultaneidad máxima admitida para cada configuración de CONTEXT\$1LENGTH:


****  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/nova/latest/nova2-userguide/nova-model-sagemaker-inference.html)

**nota**  
Los valores de MAX\$1CONCURRENCY que se muestran son los límites superiores de cada configuración de CONTEXT\$1LENGTH. Puede utilizar longitudes de contexto más bajas con la misma simultaneidad, pero si se superan estos valores, se producirá un error en la creación del punto de conexión de SageMaker.  
Por ejemplo, en Amazon Nova Micro con una instancia ml.g5.12xlarge:  
`CONTEXT_LENGTH=2000`, `MAX_CONCURRENCY=32` → válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=32` → rechazado (el límite de simultaneidad es 16 con una longitud de contexto de 8000)
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=4` → válido
`CONTEXT_LENGTH=8000`, `MAX_CONCURRENCY=16` → válido
`CONTEXT_LENGTH=10000` → rechazado (la longitud máxima del contexto es 8000 en esta instancia)

## Regiones de AWS compatibles
<a name="nova-sagemaker-inference-regions"></a>

La siguiente tabla muestra las regiones de AWS en las que los modelos de Amazon Nova están disponibles para Inferencias de SageMaker:


****  

| Nombre de la región | Código de región | Disponibilidad | 
| --- | --- | --- | 
| Este de EE. UU. (Norte de Virginia) | us-east-1 | Disponible | 
| Oeste de EE. UU. (Oregón) | us-west-2 | Disponible | 

## Imágenes de contenedor compatibles
<a name="nova-sagemaker-inference-container-images"></a>

La siguiente tabla muestra los URI de imágenes de contenedor para los modelos de Amazon Nova en Inferencias de SageMaker, organizados por región. Hay dos etiquetas de imagen disponibles para cada región: una etiqueta versionada (`v1.0.0`) y la etiqueta más reciente (`SM-Inference-latest`). En el caso de las implementaciones en producción, se recomienda usar la etiqueta versionada.


****  

| Región | URI de imágenes de contenedor | 
| --- | --- | 
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest | 
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest | 

## Prácticas recomendadas
<a name="nova-sagemaker-inference-best-practices"></a>

Para obtener información sobre las prácticas recomendadas sobre la implementación y administración de modelos en SageMaker, consulte [Best Practices for SageMaker](https://docs.aws.amazon.com//sagemaker/latest/dg/best-practices.html).

## Soporte
<a name="nova-sagemaker-inference-support"></a>

Si tiene problemas o necesita asistencia con los modelos de Amazon Nova en Inferencias de SageMaker, póngase en contacto con AWS Support a través de la consola o con su administrador de cuentas de AWS.

**Topics**
+ [Características](#nova-sagemaker-inference-features)
+ [Modelos e instancias compatibles](#nova-sagemaker-inference-supported)
+ [Regiones de AWS compatibles](#nova-sagemaker-inference-regions)
+ [Imágenes de contenedor compatibles](#nova-sagemaker-inference-container-images)
+ [Prácticas recomendadas](#nova-sagemaker-inference-best-practices)
+ [Soporte](#nova-sagemaker-inference-support)
+ [Introducción](nova-sagemaker-inference-getting-started.md)
+ [referencia de la API](nova-sagemaker-inference-api-reference.md)
+ [Evaluación de los modelos alojados en Inferencias de SageMaker](nova-eval-on-sagemaker-inference.md)
+ [Implementación de modelos de Amazon Nova Forge en la detección de abusos de Inferencia de Amazon SageMaker](nova-sagemaker-inference-abuse-detection.md)