Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
SageMaker Inférence
Les modèles Amazon Nova personnalisés sont désormais disponibles par SageMaker inférence. Avec Amazon Nova activé SageMaker, vous pouvez commencer à obtenir des prédictions, ou des inférences, à partir de vos modèles Amazon Nova personnalisés et entraînés. SageMaker propose une large sélection d'options de déploiement d'infrastructures et de modèles de machine learning pour répondre à tous vos besoins en matière d'inférence de machine learning. Grâce à SageMaker l'inférence, vous pouvez adapter le déploiement de vos modèles, gérer les modèles plus efficacement en production et réduire la charge opérationnelle.
SageMaker vous propose diverses options d'inférence, telles que des points de terminaison en temps réel pour obtenir une inférence à faible latence et des points de terminaison asynchrones pour des lots de demandes. En tirant parti de l’option d’inférence adaptée à votre cas d’utilisation, vous pouvez garantir des déploiements et des inférences de modèles efficaces. Pour plus d'informations sur l' SageMaker inférence, voir Déployer des modèles pour l'inférence.
Important
Seuls les modèles personnalisés de rang complet et les modèles fusionnés par LoRA sont pris en charge par inférence. SageMaker Pour les modèles LoRa et les modèles de base non fusionnés, utilisez Amazon Bedrock.
Caractéristiques
Les fonctionnalités suivantes sont disponibles pour les modèles Amazon Nova par SageMaker inférence :
Capacités du modèle
-
Génération de texte
Déploiement et évolutivité
-
Points de terminaison en temps réel avec sélection d'instance personnalisée
-
Auto Scaling — Ajustez automatiquement la capacité en fonction des modèles de trafic afin d'optimiser les coûts et l'utilisation du GPU. Pour plus d'informations, consultez Automatically Scale Amazon SageMaker Models.
-
Support de l'API de streaming pour la génération de jetons en temps réel
Surveillance et optimisation
-
CloudWatch Intégration avec Amazon pour la surveillance et les alertes
-
Optimisation de la latence en fonction de la zone de disponibilité grâce à la configuration VPC
Outils de développement
-
AWS CLI support — Pour plus d'informations, consultez le manuel de référence des commandes AWS CLI pour SageMaker.
-
Intégration à un ordinateur portable via le support du SDK
Modèles et instances pris en charge
Lorsque vous créez vos points de terminaison d' SageMaker inférence, vous pouvez définir deux variables d'environnement pour configurer votre déploiement : CONTEXT_LENGTH et. MAX_CONCURRENCY
-
CONTEXT_LENGTH— Longueur totale maximale du jeton (entrée+sortie) par demande -
MAX_CONCURRENCY— Nombre maximum de demandes simultanées traitées par le point de terminaison
Le tableau suivant répertorie les modèles, les types d'instances et les configurations Amazon Nova pris en charge. Les valeurs MAX_CONCURRENCY représentent la simultanéité maximale prise en charge pour chaque paramètre CONTEXT_LENGTH :
| Modèle | Type d'instance | Configurations prises en charge |
|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 32 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 16 |
| ml.g5.24xlarge | LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32 | |
| ml.g6.12xlarge |
LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 32 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 16 |
|
| ml.g6.24xlarge | LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32 | |
| ml.g6.48xlarge | LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32 | |
| ml.p5.48xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32 LONGUEUR DU CONTEXTE : 16 000, CONCURRENCE MAXIMALE : 2 LONGUEUR DU CONTEXTE : 24 000, CONCURRENCE MAXIMALE : 1 |
|
| Amazon Nova Lite | ml.g6.48xlarge |
LONGUEUR_CONTEXTE : 4000, SIMULTANÉITÉ MAXIMALE : 32 LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 16 |
| ml.p5.48xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32 LONGUEUR DU CONTEXTE : 16 000, CONCURRENCE MAXIMALE : 2 LONGUEUR DU CONTEXTE : 24 000, CONCURRENCE MAXIMALE : 1 |
|
| Nova 2 Lite | ml.p5.48xlarge |
LONGUEUR_CONTEXTE : 8000, SIMULTANÉITÉ MAXIMALE : 32 LONGUEUR DU CONTEXTE : 16 000, CONCURRENCE MAXIMALE : 2 LONGUEUR DU CONTEXTE : 24 000, CONCURRENCE MAXIMALE : 1 |
Note
Les valeurs MAX_CONCURRENCY affichées sont les limites supérieures de chaque paramètre CONTEXT_LENGTH. Vous pouvez utiliser des longueurs de contexte plus faibles avec la même simultanéité, mais le dépassement de ces valeurs entraînera l'échec de la création du point de SageMaker terminaison.
Par exemple, sur Amazon Nova Micro avec un ml.g5.12xlarge :
-
CONTEXT_LENGTH=2000,MAX_CONCURRENCY=32→ Valide -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=32→ Rejeté (la limite de simultanéité est de 16 à une longueur de contexte de 8 000) -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=4→ Valide -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=16→ Valide -
CONTEXT_LENGTH=10000→ Rejeté (la longueur maximale du contexte est de 8 000 sur cette instance)
AWS Régions prises en charge
Le tableau suivant répertorie les AWS régions dans lesquelles les modèles Amazon Nova sont disponibles par SageMaker inférence :
| Nom de la région | Code région | Disponibilité |
|---|---|---|
| USA Est (Virginie du Nord) | us-east-1 | Available |
| USA Ouest (Oregon) | us-west-2 | Available |
Images de conteneurs prises en charge
Le tableau suivant répertorie l'image du conteneur URIs pour les modèles Amazon Nova par SageMaker inférence par région. Deux balises d'image sont disponibles pour chaque région : une balise versionnée (v1.0.0) et une balise la plus récente (SM-Inference-latest). Pour les déploiements de production, nous recommandons d'utiliser la balise versionnée.
| Région | Image du conteneur URIs |
|---|---|
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest |
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest |
Bonnes pratiques
Pour connaître les meilleures pratiques relatives au déploiement et à la gestion des modèles sur SageMaker, consultez la section Meilleures pratiques pour SageMaker.
Support
En cas de problème ou d'assistance concernant les modèles Amazon Nova par SageMaker inférence, contactez le AWS Support via la console ou votre responsable de AWS compte.