Niveaux de service pour optimiser les performances et les coûts - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Niveaux de service pour optimiser les performances et les coûts

Amazon Bedrock propose quatre niveaux de service pour l'inférence de modèles : Reserved, Priority, Standard et Flex. Les niveaux de service vous permettent d'optimiser la disponibilité, les coûts et les performances.

Niveau réservé

Le niveau réservé permet de réserver des capacités de calcul prioritaires pour vos applications critiques qui ne peuvent tolérer aucun temps d'arrêt. Vous avez la flexibilité d'allouer différentes tokens-per-minute capacités d'entrée et de sortie pour répondre aux exigences exactes de votre charge de travail et contrôler les coûts. Lorsque votre application a besoin d'une tokens-per-minute capacité supérieure à celle que vous avez réservée, le service passe automatiquement au niveau Standard, garantissant ainsi des opérations ininterrompues. Le niveau réservé vise un temps de disponibilité de 99,5 % pour la réponse du modèle. Les clients peuvent réserver des capacités pour une durée d'un mois ou de trois mois. Les clients paient un prix fixe par 1 000$ tokens-per-minute et sont facturés mensuellement.

Pour accéder au niveau réservé, contactez l'équipe chargée de votre compte AWS.

Niveau de priorité

Le niveau Priority offre les temps de réponse les plus rapides pour un prix supérieur à la tarification standard à la demande. Il convient parfaitement aux applications critiques dont les flux de travail professionnels destinés aux clients ne justifient pas une réservation de capacité 24 heures sur 24, 7 jours sur 7. Le niveau prioritaire ne nécessite pas de réservation préalable. Vous pouvez simplement définir le paramètre optionnel « service_tier » sur « priority » pour bénéficier de la priorisation au niveau des demandes. Les demandes de niveau prioritaire sont prioritaires par rapport aux demandes de niveau Standard et Flex.

Niveau standard

Le niveau Standard fournit des performances constantes pour les tâches quotidiennes d'IA telles que la génération de contenu, l'analyse de texte et le traitement de routine des documents. Par défaut, toutes les demandes d'inférence sont acheminées vers le niveau Standard lorsque le paramètre « service_tier » est manquant. Vous pouvez également définir le paramètre optionnel « service_tier » sur « default » pour que votre demande d'inférence soit traitée avec le niveau Standard.

Niveau flexible

Pour les charges de travail qui peuvent supporter des délais de traitement plus longs, le niveau Flex permet un traitement rentable à un prix discount. Cela vous permet d'optimiser le coût des charges de travail telles que les évaluations de modèles, la synthèse du contenu et les flux de travail agentiques. Vous pouvez définir le paramètre optionnel « service_tier » sur « flex » pour que votre demande d'inférence soit traitée avec le niveau Flex et bénéficier de la réduction tarifaire.

Utilisation de la fonctionnalité du niveau de service

Pour accéder à la fonctionnalité du niveau de service, vous pouvez définir le paramètre optionnel « service_tier » sur « reserved », « priority », « default » ou « flex » lorsque vous appelez l'API d'exécution Amazon Bedrock.

"service_tier" : "reserved | priority | default | flex"

Votre quota à la demande pour un modèle est partagé entre les niveaux de service « prioritaire », « par défaut » et « flexible ». Votre réservation de capacité au niveau « réservé » est distincte de votre quota à la demande. La configuration du niveau de service pour une demande traitée est visible dans la réponse de l'API et dans les CloudTrail événements AWS. Vous pouvez également consulter les statistiques du niveau de service dans Amazon CloudWatch Metrics sous ModelId ServiceTier, et ResolvedServiceTier, où ResolvedServiceTier indique le niveau réel qui a répondu à vos demandes.

Pour plus d’informations sur la tarification, visitez la page de tarification.

Modèles et régions pris en charge par le niveau de service réservé :

Fournisseur Modèle Modèle IDs Régions
Anthropic Claude Sonnet 4.5

global.anthropic.claude-sonnet-4-5-20250929-v 1:0

us.anthropic.claude-sonnet-4-5-20250929-v 1:0

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-southeast-1
ap-southeast-2
ap-south-1
ap-southeast-3
ap-south-2
ap-southeast-4
ca-central-1
Europe-Ouest-1
Europe centrale 1
Europe centrale-2
Europe-Nord-1
Europe-Sud-1
Europe-Sud-2
Europe-Ouest-2
Europe-Ouest-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2
Note

La longueur de contexte de 1 million de dollars pour Sonnet 4.5 n'est pas prise en charge par le niveau réservé.

Modèles et régions pris en charge par les niveaux de service Priority et Flex :

Fournisseur Modèle ID du modèle Régions
OpenAI gpt-oss-120b openai.gpt-oss-120b- 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI gpt-oss-20b openai.gpt-oss-20b-1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
OpenAI GPT OSS Safeguard 20B openai. gpt-oss-safeguard-20b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
OpenAI GPT OSS Safeguard 120B openai. gpt-oss-safeguard-120 b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qwen3 235B A2B 2507 qwen.qwen3-235b-a22b-2507-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-2
Qwen Instruction du codeur Qwen3 480B A35B qwen.qwen3-code-480b-a35b-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Qwen Qwen3-Coder-30B-A3B-Instruct qwen.qwen3-code-30b-a3b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 32B (dense) qwen.qwen3-32b-v 1:0 us-east-1
us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-central-1
eu-north-1
eu-south-1
eu-west-1
eu-west-2
sa-east-1
Qwen Qwen3 Next 80B A3B qwen.qwen3-next-80b-a3b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Qwen Qwen3 VL 235B A2B qwen.qwen3-vl-235b-a22b ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
DeepSeek DeepSeek-V3,1 deepseek.v3-v 1:0 us-east-2
us-west-2
ap-northeast-1
ap-south-1
ap-southeast-3
eu-north-1
eu-west-2
Amazon Nova Premier amazon. nova-premier-v1:0 us-east-1*
us-east-2*
us-west-2*
Amazon Nova Pro amazon. nova-pro-v1:0 us-east-1
us-east-2*
us-ouest-1*
us-west-2*
ap-east-2*
ap-northeast-1*
ap-northeast-2*
ap-south-1*
ap-southeast-1*
ap-southeast-2
ap-southeast-3
ap-sud-est 4*
ap-sud-est 5*
ap-sud-est 7*
eu-central-1*
UE-nord-1*
UE-sud-1*
UE-Sud-2*
eu-west-1*
eu-west-2
eu-west-3*
il-central-1*
me-central-1
Amazon Nova 2 Lite amazon.nova-2-lite-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Aperçu de Nova 2 Pro amazon.nova-2-pro-preview-20251202-v 1:0 ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Amazon Nova Lite 2 Omni amazon.nova-2- 1 lite-omni-v ap-east-2
ap-northeast-1
ap-northeast-2
ap-south-1
ap-southeast-1
ap-southeast-2
ap-southeast-3
ap-southeast-4
ap-southeast-5
ap-southeast-7
ca-central-1
ca-west-1
eu-central-1
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
il-central-1
me-central-1
us-east-1
us-east-2
us-west-1
us-west-2
Google Gemma 3 4B google.gemma-3-4b-fr ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3 12B google.gemma-3-12b-fr ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Google Gemma 3 27B google.gemma-3-27b-fr ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
IA Minimax Minimax M2 minimax.minimax-m2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Magistral Small 1.2 mistral.magistral-small-2509 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Mini 1.0 mistral.voxtral-mini-3b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Voxtral Small 1.0 mistral.voxtral-small-24b-2507 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 3B 3.0 mistral.ministral-3-3b-instruction ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 8B 3.0 mistral.ministral-3-8b-instruction ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Ministral 14B 3.0 mistral.ministral-3-14b-instruction ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Mistral Mistral Large 3 mistral.mistral-large-3-675b-instruction ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Kimi AI Kimi K2 Thinking moonshot.kimi-k2-thinking ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Némotron Nano 2 nvidia.nemotron-nano-9b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2
Nvidia NVIDIA Nemotron Nano 2 VL nvidia.nemotron-nano-12b-v2 ap-northeast-1
ap-south-1
ap-southeast-2
ap-southeast-3
ca-central-1
eu-central-1
eu-central-2
eu-north-1
eu-south-1
eu-south-2
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-2

*L'inférence du modèle peut être utilisée en utilisant plusieurs régions.

Pour contrôler l'accès aux niveaux de service, reportez-vous à Contrôlez l'accès aux niveaux de service