Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Inférence à la demande
L'inférence à la demande fournit un accès sans serveur aux modèles Amazon Nova sans nécessiter de capacité provisionnée. Ce mode s'adapte automatiquement à votre charge de travail et à vos frais en fonction de l'utilisation.
Avantages
L'inférence à la demande présente plusieurs avantages :
-
Aucune planification des capacités : s'adapte automatiquement à la demande
-
Paiement à l'utilisation : facturé uniquement pour les jetons traités
-
Disponibilité instantanée : aucun temps de mise en service ou de préchauffage requis
-
Rentable : idéal pour les charges de travail variables ou imprévisibles
Utilisation de l'inférence à la demande
L'inférence à la demande est le mode par défaut pour les modèles Amazon Nova. Spécifiez simplement l'ID du modèle lorsque vous effectuez des appels d'API :
import boto3 bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') response = bedrock.converse( modelId='us.amazon.nova-2-lite-v1:0', messages=[ { 'role': 'user', 'content': [{'text': 'Hello, Nova!'}] } ] ) # Print the response text content_list = response["output"]["message"]["content"] text = next((item["text"] for item in content_list if "text" in item), None) if text is not None: print(text)
Tarification
L'inférence à la demande est facturée en fonction du nombre de jetons d'entrée et de sortie traités. Pour en savoir plus sur les tarifs actuels, consultez les tarifs d'Amazon Bedrock
Quotas et limites
L'inférence à la demande comporte des quotas par défaut qui varient en fonction du modèle et de la région. Pour demander des augmentations de quotas, utilisez la console Service Quotas