Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Optimisation de l’inférence de modèle pour la latence
Note
La fonctionnalité d'inférence optimisée pour la latence est en version préliminaire Amazon Bedrock et est sujette à modification.
L'inférence optimisée en termes de latence pour les modèles de base Amazon Bedrock permet d'accélérer les temps de réponse et d'améliorer la réactivité des applications d'IA. Les versions optimisées de Amazon Nova Pro, le modèle Claude 3.5 Haiku d’Anthropic
L’accès à la fonctionnalité d’optimisation de la latence ne nécessite aucune configuration supplémentaire ni aucun peaufinage précis du modèle, ce qui permet d’améliorer immédiatement les applications existantes avec des temps de réponse plus rapides. Vous pouvez définir le paramètre « Latence » sur « optimisé » lorsque vous appelez l’API d’exécution d’Amazon Bedrock. Si vous sélectionnez « standard » comme option d’invocation, vos demandes seront traitées par inférence standard. Par défaut, toutes les demandes sont acheminées en « standard ».
"performanceConfig" : { "latency" : "standard | optimized" }
Une fois que vous avez atteint le quota d’utilisation pour l’optimisation de la latence pour un modèle, nous essaierons de répondre à la demande avec une latence standard. Dans de tels cas, la demande sera facturée aux tarifs de latence standard. La configuration de latence pour une demande traitée est visible dans les réponses et les AWS CloudTrail journaux de l'API. Vous pouvez également consulter les métriques des demandes optimisées pour la latence dans les Amazon CloudWatch journaux sous « model-id+latency-optimized ».
L’inférence optimisée pour la latence est disponible pour les modèles Llama 3.1 70B et 405B de Meta, ainsi que pour les modèles Claude 3.5 Haiku d’Anthropic dans les régions USA Est (Ohio) et USA Ouest (Oregon) via une inférence interrégionale.
L’inférence optimisée est disponible pour Amazon Nova Pro dans les régions USA Est (Virginie du Nord), USA Est (Ohio) et USA Ouest (Oregon) via l’inférence interrégionale.
Pour plus d’informations sur la tarification, visitez la page de tarification
Note
L’inférence optimisée pour la latence pour le modèle Llama 3.1 405B prend actuellement en charge les demandes avec un nombre total de jetons d’entrée et de sortie allant jusqu’à 11 000. Pour les demandes de nombre de jetons plus important, nous allons revenir au mode standard.
Le tableau suivant présente les profils d'inférence qui prennent en charge l'optimisation de la latence :
| Fournisseur | Modèle | ID du modèle | Support des profils d'inférence interrégionaux |
|---|---|---|---|
| Amazon | Nova Pro | amazon. nova-pro-v1:0 |
us-east-1 us-east-2 |
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |
us-east-2 us-west-2 |
| Meta | Llama 3.1 405B Instruct | meta.llama3-1-405 1:0 b-instruct-v |
us-east-2 |
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70 1:0 b-instruct-v |
us-east-2 us-west-2 |
Pour plus d'informations sur les profils d'inférence, consultezRégions et modèles pris en charge pour les profils d'inférence.