Inférence à la demande sur des modèles personnalisés - Amazon Nova

Inférence à la demande sur des modèles personnalisés

L’inférence à la demande (OD) vous permet d’exécuter une inférence sur vos modèles Amazon Nova personnalisés sans avoir à gérer des points de terminaison de débit alloué. Cela vous aide à optimiser vos coûts et à vous mettre à l’échelle efficacement. Avec l’inférence à la demande, vous êtes facturé en fonction de votre utilisation, mesurée en jetons, tant en entrée qu’en sortie.

Exigences de compatibilité

Les exigences de compatibilité suivantes s’appliquent :

  • L’inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova Pro, Lite et Micro. L’inférence OD n’est pas prise en charge pour les modèles de génération de contenu personnalisés Nova.

  • L’inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova entraînés après le 16 juillet 2025. Les modèles personnalisés entraînés avant le 16 juillet 2025 ne sont pas compatibles avec l’inférence OD.

  • Personnalisation Amazon Bedrock : l’inférence OD est prise en charge pour les modèles personnalisés avec Amazon Bedrock et pour les modèles étudiants qui ont été distillés à partir d’un modèle enseignant avec Amazon Bedrock.

  • Personnalisation SageMaker AI : pour les modèles personnalisés dans SageMaker AI, l’inférence OD n’est prise en charge que pour les modèles PEFT (Parameter-efficient fine-tuned) lorsque le modèle est hébergé sur Amazon Bedrock. Cela inclut l’optimisation directe des préférences (Direct Preference Optimization) et le PEFT. L’inférence OD n’est pas prise en charge pour les modèles peaufinés à rang complet.

Entraînement et inférence des modèles

Lorsque vous entraînez un nouveau modèle Amazon Nova Pro, Lite ou Micro personnalisé sur Amazon Bedrock ou SageMaker AI à l’aide du PEFT après le 16 juillet 2025, le modèle sera automatiquement compatible avec les options d’inférence provisionnées et à la demande. Vous pouvez sélectionner votre méthode d’inférence préférée lorsque vous déployez votre modèle.

Pour utiliser l’inférence OD avec un modèle entraîné après le 16 juillet 2025, veuillez suivre les étapes suivantes :

  1. Créez une nouvelle tâche de peaufinage à l’aide de l’API de personnalisation Amazon Bedrock ou de l’API de personnalisation SageMaker AI.

  2. Déployez le modèle nouvellement entraîné sur Amazon Bedrock à l’aide de l’API CreateCustomModel.

  3. Déployez pour l’inférence à la demande à l’aide de l’API CustomModelDeployment.

Limites de débit

Les limites suivantes de demandes par minute (RPM) et de jetons par minute (TPM) s’appliquent aux demandes d’inférence à la demande :

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 2,000 4,000,000
Amazon Nova Lite 2,000 4,000,000
Amazon Nova Pro 200 800,000

Pour en savoir plus sur les quotas disponibles pour Amazon Nova, consultez Quotas pour Amazon Nova.

Latence

Vous pouvez vous attendre à une différence de latence de bout en bout (c’est-à-dire le temps jusqu’au premier jeton (TTFT)) de 20 à 55 % entre l’invocation du modèle de base et l’adaptateur. La valeur exacte de la latence varie en fonction de la taille du modèle et est conforme aux normes de l’industrie.