Inferencias de SageMaker - Amazon Nova

Inferencias de SageMaker

Los modelos personalizados de Amazon Nova ya están disponibles para Inferencias de SageMaker. Con Amazon Nova en SageMaker, puede empezar a obtener predicciones o inferencias a partir de sus modelos de Amazon Nova personalizados y entrenados. Sagemaker ofrece una amplia selección de opciones de implementación de modelos e infraestructuras de ML para ayudarle a satisfacer todas sus necesidades de inferencia de ML. Con Inferencias de SageMaker, puede escalar la implementación de modelos, administrar modelos de forma más eficaz en la fase de producción y reducir la carga operativa.

SageMaker le proporciona varias opciones de inferencia, como, por ejemplo, puntos de conexión en tiempo real para obtener inferencias de baja latencia y puntos de conexión asíncronos para lotes de solicitudes. Al utilizar la opción de inferencia adecuada para el caso de uso, puede garantizar una implementación e inferencia eficaces de los modelos. Para obtener más información sobre Inferencias de SageMaker, consulte Deploy models for inference.

importante

Solo los modelos personalizados de rango completo y los modelos fusionados con LoRA son compatibles con Inferencias de SageMaker. En el caso de los modelos LoRA no fusionados y los modelos base, utilice Amazon Bedrock.

Características

Las siguientes características están disponibles para los modelos de Amazon Nova en Inferencias de SageMaker:

Capacidades del modelo

  • Generación de texto

Implementación y escalado

  • Puntos de conexión en tiempo real con selección de instancias personalizada.

  • Escalado automático: ajuste automáticamente la capacidad en función de los patrones de tráfico para optimizar los costos y el uso de la GPU. Para obtener información, consulte Automatically Scale Amazon SageMaker Models

  • Compatibilidad con API de transmisión para la generación de tokens en tiempo real.

Supervisión y optimización

  • Integración de Amazon CloudWatch para supervisar y configurar alertas.

  • Optimización de la latencia con reconocimiento de zonas de disponibilidad mediante la configuración de VPC.

Herramientas de desarrollo de

Modelos e instancias compatibles

Al crear los puntos de conexión de Inferencias de SageMaker, puede definir dos variables de entorno para configurar su implementación: CONTEXT_LENGTH y MAX_CONCURRENCY.

  • CONTEXT_LENGTH: longitud máxima total del token (entrada + salida) por solicitud

  • MAX_CONCURRENCY: número máximo de solicitudes simultáneas que atenderá el punto de conexión

En la siguiente tabla se muestran los modelos de Amazon Nova admitidos, los tipos de instancias y las configuraciones admitidas. Los valores de MAX_CONCURRENCY representan la simultaneidad máxima admitida para cada configuración de CONTEXT_LENGTH:

Modelo Tipo de instancia Configuraciones admitidas
Amazon Nova Micro ml.g5.12xlarge

CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 16

ml.g5.24xlarge CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 32
ml.g6.12xlarge

CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 16

ml.g6.24xlarge CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 32
ml.g6.48xlarge CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 32
ml.p5.48xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24.000, MAX_CONCURRENCY: 1

Amazon Nova Lite ml.g6.48xlarge

CONTEXT_LENGTH: 4.000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 16

ml.p5.48xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24.000, MAX_CONCURRENCY: 1

Nova 2 Lite ml.p5.48xlarge

CONTEXT_LENGTH: 8.000, MAX_CONCURRENCY: 32

CONTEXT_LENGTH: 16.000, MAX_CONCURRENCY: 2

CONTEXT_LENGTH: 24.000, MAX_CONCURRENCY: 1

nota

Los valores de MAX_CONCURRENCY que se muestran son los límites superiores de cada configuración de CONTEXT_LENGTH. Puede utilizar longitudes de contexto más bajas con la misma simultaneidad, pero si se superan estos valores, se producirá un error en la creación del punto de conexión de SageMaker.

Por ejemplo, en Amazon Nova Micro con una instancia ml.g5.12xlarge:

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=32 → válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=32 → rechazado (el límite de simultaneidad es 16 con una longitud de contexto de 8000)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → válido

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=16 → válido

  • CONTEXT_LENGTH=10000→ rechazado (el contexto máximo es 8000 en esta instancia)

Regiones de AWS compatibles

La siguiente tabla muestra las regiones de AWS en las que los modelos de Amazon Nova están disponibles para Inferencias de SageMaker:

Nombre de la región Código de región Disponibilidad
Este de EE. UU. (Norte de Virginia) us-east-1 Disponible
Oeste de EE. UU. (Oregón) us-west-2 Disponible

Imágenes de contenedor compatibles

La siguiente tabla muestra los URI de imágenes de contenedor para los modelos de Amazon Nova en Inferencias de SageMaker, organizados por región. Hay dos etiquetas de imagen disponibles para cada región: una etiqueta versionada (v1.0.0) y la etiqueta más reciente (SM-Inference-latest). En el caso de las implementaciones en producción, se recomienda usar la etiqueta versionada.

Región URI de imágenes de contenedor
us-east-1

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:v1.0.0

708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest

us-west-2

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:v1.0.0

176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Prácticas recomendadas

Para obtener información sobre las prácticas recomendadas sobre la implementación y administración de modelos en SageMaker, consulte Best Practices for SageMaker.

Soporte

Si tiene problemas o necesita asistencia con los modelos de Amazon Nova en Inferencias de SageMaker, póngase en contacto con AWS Support a través de la consola o con su administrador de cuentas de AWS.