SageMaker Inférence - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

SageMaker Inférence

Les modèles Amazon Nova personnalisés sont désormais disponibles par SageMaker inférence. Avec Amazon Nova activé SageMaker, vous pouvez commencer à obtenir des prédictions, ou des inférences, à partir de vos modèles Amazon Nova personnalisés et entraînés. SageMaker propose une large sélection d'options de déploiement d'infrastructures et de modèles de machine learning pour répondre à tous vos besoins en matière d'inférence de machine learning. Grâce à SageMaker l'inférence, vous pouvez adapter le déploiement de vos modèles, gérer les modèles plus efficacement en production et réduire la charge opérationnelle.

SageMaker vous propose diverses options d'inférence, telles que des points de terminaison en temps réel pour obtenir une inférence à faible latence et des points de terminaison asynchrones pour des lots de demandes. En tirant parti de l’option d’inférence adaptée à votre cas d’utilisation, vous pouvez garantir des déploiements et des inférences de modèles efficaces. Pour plus d'informations sur l' SageMaker inférence, voir Déployer des modèles pour l'inférence.

Important

Seuls les modèles personnalisés de rang complet et les modèles fusionnés par LoRA sont pris en charge par inférence. SageMaker Pour les modèles LoRa et les modèles de base non fusionnés, utilisez Amazon Bedrock.

Caractéristiques

Les fonctionnalités suivantes sont disponibles pour les modèles Amazon Nova par SageMaker inférence :

Capacités du modèle

  • Génération de texte

Déploiement et évolutivité

  • Points de terminaison en temps réel avec sélection d'instance personnalisée

  • Auto Scaling — Ajustez automatiquement la capacité en fonction des modèles de trafic afin d'optimiser les coûts et l'utilisation du GPU. Pour plus d'informations, consultez Automatically Scale Amazon SageMaker Models.

  • Support de l'API de streaming pour la génération de jetons en temps réel

Surveillance et optimisation

  • CloudWatch Intégration avec Amazon pour la surveillance et les alertes

  • Optimisation de la latence en fonction de la zone de disponibilité grâce à la configuration VPC

Outils de développement

Modèles et instances pris en charge

Lorsque vous créez vos points de terminaison d' SageMaker inférence, vous pouvez définir deux variables d'environnement pour configurer votre déploiement : CONTEXT_LENGTH et. MAX_CONCURRENCY

  • CONTEXT_LENGTH— Longueur totale maximale du jeton (entrée+sortie) par demande

  • MAX_CONCURRENCY— Nombre maximum de demandes simultanées traitées par le point de terminaison

Le tableau suivant répertorie les modèles, les types d'instances et les configurations Amazon Nova pris en charge. Les valeurs MAX_CONCURRENCY représentent la simultanéité maximale prise en charge pour chaque paramètre CONTEXT_LENGTH :

Modèle Type d'instance Configurations prises en charge
Amazon Nova Micro ml.g5.12xlarge

LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 32

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 16

ml.g5.24xlarge LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32
ml.g6.12xlarge

LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 32

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 16

ml.g6.24xlarge LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32
ml.g6.48xlarge LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32
ml.p5.48xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32

LONGUEUR DU CONTEXTE : 16 000, CONCURRENCE MAXIMALE : 2

LONGUEUR DU CONTEXTE : 24 000, CONCURRENCE MAXIMALE : 1

Amazon Nova Lite ml.g6.48xlarge

LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 32

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 16

ml.p5.48xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32

LONGUEUR DU CONTEXTE : 16 000, CONCURRENCE MAXIMALE : 2

LONGUEUR DU CONTEXTE : 24 000, CONCURRENCE MAXIMALE : 1

Nova 2 Lite ml.p5.48xlarge

LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32

LONGUEUR DU CONTEXTE : 16 000, CONCURRENCE MAXIMALE : 2

LONGUEUR DU CONTEXTE : 24 000, CONCURRENCE MAXIMALE : 1

Note

Les valeurs MAX_CONCURRENCY affichées sont les limites supérieures de chaque paramètre CONTEXT_LENGTH. Vous pouvez utiliser des longueurs de contexte plus faibles avec la même simultanéité, mais le dépassement de ces valeurs entraînera l'échec de la création du point de SageMaker terminaison.

Par exemple, sur Amazon Nova Micro avec un ml.g5.12xlarge :

  • CONTEXT_LENGTH=2000, MAX_CONCURRENCY=32 → Valide

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=32 → Rejeté (la limite de simultanéité est de 16 à une longueur de contexte de 8 000)

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=4 → Valide

  • CONTEXT_LENGTH=8000, MAX_CONCURRENCY=16 → Valide

  • CONTEXT_LENGTH=10000→ Rejeté (la longueur maximale du contexte est de 8 000 sur cette instance)

AWS Régions prises en charge

Le tableau suivant répertorie les AWS régions dans lesquelles les modèles Amazon Nova sont disponibles par SageMaker inférence :

Nom de la région Code région Disponibilité
USA Est (Virginie du Nord) us-east-1 Available
USA Ouest (Oregon) us-west-2 Available

Images de conteneurs prises en charge

Le tableau suivant répertorie l'image du conteneur URIs pour les modèles Amazon Nova par SageMaker inférence par région. Deux balises d'image sont disponibles pour chaque région : une balise versionnée (v1.0.0) et une balise la plus récente (SM-Inference-latest). Pour les déploiements de production, nous recommandons d'utiliser la balise versionnée.

Région Image du conteneur URIs
us-east-1 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest
us-west-2 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest

Bonnes pratiques

Pour connaître les meilleures pratiques relatives au déploiement et à la gestion des modèles sur SageMaker, consultez la section Meilleures pratiques pour SageMaker.

Support

En cas de problème ou d'assistance concernant les modèles Amazon Nova par SageMaker inférence, contactez le AWS Support via la console ou votre responsable de AWS compte.