Niveau réservé Niveau de priorité Niveau standard Niveau flexible Utilisation de la fonctionnalité du niveau de service

Niveaux de service pour optimiser les performances et les coûts

Amazon Bedrock propose quatre niveaux de service pour l'inférence de modèles : Reserved, Priority, Standard et Flex. Les niveaux de service vous permettent d'optimiser la disponibilité, les coûts et les performances.

Niveau réservé

Le niveau réservé permet de réserver des capacités de calcul prioritaires pour vos applications critiques qui ne peuvent tolérer aucun temps d'arrêt. Vous avez la flexibilité d'allouer différentes capacités de jetons d'entrée et de sortie par minute pour répondre aux exigences exactes de votre charge de travail et contrôler les coûts. Lorsque votre application a besoin d'une capacité de jetons par minute supérieure à celle que vous avez réservée, le service passe automatiquement au niveau Standard, garantissant ainsi des opérations ininterrompues. Le niveau réservé vise un temps de disponibilité de 99,5 % pour la réponse du modèle. Les clients peuvent réserver des capacités pour une durée d'un mois ou de trois mois. Les clients paient un prix fixe pour 1 000 jetons par minute et sont facturés mensuellement.

Le niveau réservé a les exigences de capacité minimale suivantes :

Nombre minimum de jetons d'entrée par minute (TPM) : 100 000
Nombre minimal de jetons de sortie par minute (TPM) : 10 000

Pour accéder au niveau réservé, contactez l'équipe chargée de votre compte AWS.

Important

Lorsque vous évaluez la capacité de votre niveau réservé, notez que votre consommation de jetons par minute inclut à la fois et. InputTokenCount CacheWriteInputTokens Si vous utilisez la mise en cache rapide, vous devez additionner les deux statistiques sur Amazon CloudWatch pour estimer avec précision la réservation requise. Pour plus d'informations sur la façon dont les jetons sont pris en compte dans votre quota, consultezCompréhension de la gestion des quotas de jetons.

Note

La facturation se poursuit jusqu'à ce que vous supprimiez la réservation du niveau réservé avec l'aide de votre Compte AWS responsable.

Niveau de priorité

Le niveau Priority offre les temps de réponse les plus rapides pour un prix supérieur à la tarification standard à la demande. Il convient parfaitement aux applications critiques dont les flux de travail commerciaux destinés aux clients ne justifient pas une réservation de capacité 24 heures sur 24, 7 jours sur 7. Le niveau prioritaire ne nécessite pas de réservation préalable. Vous pouvez simplement définir le paramètre optionnel « service_tier » sur « priority » pour bénéficier de la priorisation au niveau des demandes. Les demandes de niveau prioritaire sont prioritaires par rapport aux demandes de niveau Standard et Flex.

Niveau standard

Le niveau Standard fournit des performances constantes pour les tâches quotidiennes d'IA telles que la génération de contenu, l'analyse de texte et le traitement de routine des documents. Par défaut, toutes les demandes d'inférence sont acheminées vers le niveau Standard lorsque le paramètre « service_tier » est manquant. Vous pouvez également définir le paramètre optionnel « service_tier » sur « default » pour que votre demande d'inférence soit traitée avec le niveau Standard.

Niveau flexible

Pour les charges de travail qui peuvent supporter des délais de traitement plus longs, le niveau Flex permet un traitement rentable à un prix discount. Cela vous permet d'optimiser le coût des charges de travail telles que les évaluations de modèles, la synthèse du contenu et les flux de travail agentiques. Vous pouvez définir le paramètre optionnel « service_tier » sur « flex » pour que votre demande d'inférence soit traitée avec le niveau Flex et bénéficier de la réduction tarifaire.

Utilisation de la fonctionnalité du niveau de service

Pour accéder à la fonctionnalité du niveau de service, vous pouvez définir le paramètre optionnel « service_tier » sur « reserved », « priority », « default » ou « flex » lorsque vous appelez l'API d'exécution Amazon Bedrock.


"service_tier" : "reserved | priority | default | flex"

Votre quota à la demande pour un modèle est partagé entre les niveaux de service « prioritaire », « par défaut » et « flexible ». Votre réservation de capacité au niveau « réservé » est distincte de votre quota à la demande. La configuration du niveau de service pour une demande traitée est visible dans la réponse de l'API et dans les CloudTrail événements AWS. Vous pouvez également consulter les statistiques du niveau de service dans Amazon CloudWatch Metrics sous ModelId ServiceTier, et ResolvedServiceTier, où ResolvedServiceTier indique le niveau réel qui a répondu à vos demandes.

Pour plus d’informations sur la tarification, visitez la page de tarification.

Accédez à la section Modèles en un coup d'œil et choisissez le modèle qui vous intéresse pour connaître le niveau de service pris en charge par ce modèle.

Pour contrôler l'accès aux niveaux de service, reportez-vous à Contrôlez l'accès aux niveaux de service

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Capacité et performance

Inférence par lots