Points de terminaison Amazon Bedrock point de terminaison bedrock-mantle : débit et quotas endpoint bedrock-runtime : débit et quotas Comprendre les réponses aux erreurs HTTP Gestion des erreurs recommandée Augmenter le débit Bonnes pratiques supplémentaires Disponibilité régionale et inférence interrégionale Obtenir de l'aide Résumé des recommandations

Meilleures pratiques en matière de mise à l'échelle et de débit

Cette rubrique explique comment les limites de débit et la planification fonctionnent sur les points de terminaison Amazon Bedrock et fournit les meilleures pratiques pour faire évoluer vos applications d'IA générative.

Points de terminaison Amazon Bedrock

Amazon Bedrock prend en charge deux points de terminaison pour l'inférence :

bedrock-mantle.{region}.api.aws— Supporte les réponses et les réponses au chat (depuis OpenAI) et les messages (depuis Anthropic).
bedrock-runtime.{region}.amazonaws.com— Supporte les Bedrock-native API (Invoke et Converse), les API de fin de chat et les API de messages.

Pour plus d'informations sur ces points de terminaison et sur la façon de choisir entre eux, consultezEndpoints pris en charge par Amazon Bedrock.

Pourquoi les deux points de terminaison se comportent différemment

Dans de nombreux services multilocataires traditionnels, l'architecture est conçue autour de quotas par compte afin de gérer un accès équitable aux ressources partagées. C'est l'approche utilisée avec bedrock-runtime.

Avec bedrock-mantle, une approche différente est utilisée. Ce point de terminaison est conçu avec des mécanismes avancés de planification et de mise en file d'attente qui assurent une distribution équitable tout en supportant des limites de débit initiales plus élevées. Cette conception permet également bedrock-mantle d'héberger un large éventail de modèles et de fournir l'ensemble des fonctionnalités disponibles dans le catalogue de modèles. Dans la plupart des cas, les demandes sont traitées immédiatement. Dans certains cas, une demande peut être brièvement mise en file d'attente pendant que les charges de travail en vol sont terminées et que le débit devient disponible. Les sections ci-dessous expliquent comment gérer ces scénarios.

point de terminaison `bedrock-mantle` : débit et quotas

Le comportement du débit et des quotas sur le bedrock-mantle terminal diffère pour Anthropic Claude par rapport aux autres modèles, comme le montre le tableau suivant.

	Claude 4,7 ans et plus	Tous les autres modèles
Entrée TPM	10 M*	Aucune limite de TPM par client ou par modèle
TPM de sortie	2 M	Aucune limite de TPM par client ou par modèle
On-demand gradins	Standard	Standard, Priority, Flex (quelques exceptions) — consultez les pages détaillées des modèles pour connaître la disponibilité
Par lots	Non	Oui, pour les modèles pris en charge. Consultez les pages détaillées des modèles pour connaître leur disponibilité
Capacité réservée	Aucune	Aucune

* Votre limite de TPM saisie dépend de votre historique d'utilisation avec Amazon Bedrock. Consultez la page Quotas de la console Amazon Bedrock pour connaître votre allocation réelle.

endpoint `bedrock-runtime` : débit et quotas

Le tableau suivant récapitule le débit et les quotas pour. bedrock-runtime

	Claude 4,7 ans et plus	Tous les autres modèles
Entrée TPM	15 M*	Varie *
TPM de sortie	Combiné avec Input TPM. Burndown s'applique.	Aucune. Burndown s'applique.
RPM	Non appliqué, régi par le TPM	Varie selon le modèle : voir la console Service Quotas
On-demand gradins	Standard	Standard, Priority, Flex (quelques exceptions) — consultez les pages détaillées des modèles pour connaître la disponibilité
Par lots	Non	Oui, pour les modèles pris en charge. Consultez les pages détaillées des modèles pour connaître leur disponibilité
Capacité réservée	Aucune	Tier/Provisioned Capacité réservée

* Les quotas pour ces modèles varient en fonction de l'utilisation. Consultez la page Quotas de la console Amazon Bedrock pour connaître vos allocations.

Comprendre les réponses aux erreurs HTTP

HTTP 429: Une réponse 429 signifie que votre demande a été limitée. Réduisez le taux de soumission de vos demandes. Si le modèle dispose d'un quota de tr/min et que vous avez besoin d'une allocation plus élevée, demandez une augmentation via la console Service Quotas ou contactez votre Compte AWS équipe. bedrock-runtime
HTTP 503: Une réponse 503 signifie qu'il y a une demande accrue pour Amazon Bedrock dans cette région. Vous devez réduire le taux de demandes, puis réessayer avec un retard exponentiel ou répartir le trafic entre les régions.

Gestion des erreurs recommandée

Erreurs transitoires (503 réponses occasionnelles)

Implémentez un recul exponentiel avec une instabilité aléatoire :

Commencez par un court délai (1 seconde, par exemple).
Doublez le délai après chaque tentative infructueuse.
Limitez les tentatives à 6 tentatives.

La plupart AWS des SDK et des bibliothèques HTTP populaires fournissent un support intégré pour ce modèle.

Exemple Réessayez la configuration pour `bedrock-runtime` (AWS SDK (//boto3)


import boto3
from botocore.config import Config

config = Config(retries={"total_max_attempts": 6, "mode": "standard"})
client = boto3.client("bedrock-runtime", config=config)

Exemple Réessayer la configuration de `Bedrock-mantle` (SDK OpenAI)


from openai import OpenAI

client = OpenAI(
    api_key=api_key,
    base_url=f"https://bedrock-mantle.{region}.api.aws/v1",
    max_retries=6,
    timeout=60.0,
)

Exemple Réessayer la configuration pour `Bedrock-mantle` (SDK Anthropic)


import anthropic

client = anthropic.Anthropic(
    api_key=api_key,
    base_url=f"https://bedrock-mantle.{region}.api.aws",
    max_retries=6,
    timeout=60.0,
)

Erreurs persistantes (503 réponses persistantes)

Si vous recevez des erreurs 503 persistantes, une nouvelle tentative ne résoudra pas le problème à elle seule. Le taux de demandes dépasse le débit disponible. Suivez les étapes suivantes:

Réduisez la fréquence à laquelle votre candidature soumet de nouvelles demandes.
Implémentez la limitation du débit côté client ou la mise en file d'attente des demandes.
Supprimez les demandes moins prioritaires jusqu'à ce que le débit soit rétabli.

Augmenter le débit

Lorsque vous consommez du débit à la demande sur le bedrock-mantleterminal, le débit disponible évolue au fil du temps. Le succès de toutes les demandes dans les limites de votre quota n'est pas garanti pendant les périodes de forte demande. Il est donc important de les accélérer progressivement.

Procédure de montée en puissance recommandée

Commencez par le volume de demandes cible, par exemple 500 tr/min.
Si vous recevez 503 réponses, réduisez votre taux, par exemple de 50 %.
Continuez à réduire à ce taux jusqu'à ce que vous atteigniez un état stable où les demandes aboutissent de manière constante.
Maintenez cet état stable pendant une courte durée, disons 15 minutes.
Augmentez à nouveau le débit, par exemple de 50 %, et maintenez pendant 15 minutes supplémentaires.
Répétez l'opération jusqu'à ce que vous atteigniez le volume cible.

Par exemple, si votre objectif est de 2 000 tr/min mais que 503 erreurs s'affichent, réduisez à 1 000 tr/min. Si les erreurs persistent, réduisez à 500 tr/min. Une fois que les demandes aboutissent régulièrement à 500 tr/min, attendez 15 minutes, puis passez à 750, puis à 1 125, et ainsi de suite.

Les tarifs de rampe ne sont pas ajustables. Pour demander des quotas TPM plus élevés, utilisez la console Service Quotas ou contactez votre Compte AWS équipe.

Bonnes pratiques supplémentaires

Utilisez des indicateurs de fonctionnalité pour transférer progressivement le trafic entre les modèles plutôt que de changer l'ensemble du trafic en une seule fois.
Répartissez les charges de travail importantes sur plusieurs minutes et tenez compte des horaires de la journée pour éviter les périodes de pointe.
Commencez les tests avec de petits lots et échelonnez-les progressivement. Évitez d'envoyer des milliers de demandes de test simultanément.
Pour le traitement de données hors ligne volumineuses, utilisez l'API Batch ou Flex Tier si votre application peut traiter les réponses de manière asynchrone.

Disponibilité régionale et inférence interrégionale

On-demand le débit est alloué au niveau régional et varie d'une région à l'autre. Si votre charge de travail cible une seule région, 503 réponses peuvent être reçues pendant les périodes de forte demande. Pour optimiser la disponibilité et si vous en utilisez bedrock-runtime, utilisezInférence interrégionale globale.

Obtenir de l'aide

Planification du débit : contactez votre Compte AWS équipe pour obtenir des prévisions de débit. Prévoyez un débit maximal de 2 à 3 fois lors des événements de mise à l'échelle.
Optimisation des performances : surveillez l'efficacité de l'utilisation des jetons, optimisez les instructions pour réduire la consommation de jetons et sélectionnez des modèles en fonction des exigences de votre cas d'utilisation.
Escalade du support : lorsque vous ouvrez un dossier de AWS support pour des problèmes de débit, incluez les éléments suivants : codes d'erreur spécifiques, ID de demande, modèles de trafic (RPM/TPM) et calendrier de mise à l'échelle.

Résumé des recommandations

Scénario	Recommendation
Charges de travail générales	Utilisez le bedrock-mantlepoint de terminaison dans la mesure du possible.
Erreurs 503 occasionnelles	Réessayez avec un recul et une instabilité exponentiels.
503 erreurs persistantes	Réduisez le taux de soumission des demandes. Implémentez la limitation du débit côté client.
Erreurs 429	Réduisez le taux de demandes. Activé`bedrock-runtime`, si le modèle dispose d'un quota de tr/min, demandez une augmentation via Service Quotas.
Traitement hors ligne de grande envergure	Utilisez l'API Batch ou Flex Tier.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mise en cache des invites

Suivez l'utilisation et les coûts