View a markdown version of this page

Meilleures pratiques en matière de mise à l'échelle et de débit - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Meilleures pratiques en matière de mise à l'échelle et de débit

Cette rubrique explique comment les limites de débit et la planification fonctionnent sur les points de terminaison Amazon Bedrock et fournit les meilleures pratiques pour faire évoluer vos applications d'IA générative.

Points de terminaison Amazon Bedrock

Amazon Bedrock prend en charge deux points de terminaison pour l'inférence :

  • bedrock-mantle.{region}.api.aws— Supporte les réponses et les réponses au chat (depuis OpenAI) et les messages (depuis Anthropic).

  • bedrock-runtime.{region}.amazonaws.com— Supporte les Bedrock-native API (Invoke et Converse), les API de fin de chat et les API de messages.

Pour plus d'informations sur ces points de terminaison et sur la façon de choisir entre eux, consultezPoints de terminaison pris en charge par Amazon Bedrock.

Pourquoi les deux points de terminaison se comportent différemment

Dans de nombreux services multilocataires traditionnels, l'architecture est conçue autour de quotas par compte afin de gérer un accès équitable aux ressources partagées. C'est l'approche utilisée avec bedrock-runtime.

Avec bedrock-mantle, une approche différente est utilisée. Ce point de terminaison est conçu avec des mécanismes avancés de planification et de mise en file d'attente qui assurent une distribution équitable tout en supportant des limites de débit initiales plus élevées. Cette conception permet également bedrock-mantle d'héberger un large éventail de modèles et de fournir l'ensemble des fonctionnalités disponibles dans le catalogue de modèles. Dans la plupart des cas, les demandes sont traitées immédiatement. Dans certains cas, une demande peut être brièvement mise en file d'attente pendant que les charges de travail en vol sont terminées et que le débit devient disponible. Les sections ci-dessous expliquent comment gérer ces scénarios.

point de terminaison bedrock-mantle : débit et quotas

Tous les modèles concernés bedrock-mantle partagent une seule limite stricte de 10 000 tr/min par compte et par région. Il existe certaines différences dans le comportement du débit et des quotas pour Claude par rapport aux autres modèles, comme indiqué ci-dessous.

  Claude 4,7 ans et plus Tous les autres modèles
Entrée TPM 10 M* Aucune limite de TPM par client ou par modèle
TPM de sortie 2 M Aucune limite de TPM par client ou par modèle
RPM 10 000 (répartis sur tous les modèles de ce terminal) 10 000 (répartis sur tous les modèles de ce terminal)
On-demand gradins Standard Standard, Priority, Flex (quelques exceptions) — consultez les pages détaillées des modèles pour connaître la disponibilité
Par lots Non Oui, pour les modèles pris en charge. Consultez les pages détaillées des modèles pour connaître leur disponibilité
Capacité réservée Aucune Aucune

* Votre limite de TPM saisie dépend de votre historique d'utilisation avec Amazon Bedrock. Consultez la page Quotas de la console Amazon Bedrock pour connaître votre allocation réelle.

endpoint bedrock-runtime : débit et quotas

Le tableau suivant récapitule le débit et les quotas pour. bedrock-runtime

  Claude 4,7 ans et plus Tous les autres modèles
Entrée TPM 15 M* Varie *
TPM de sortie Combiné avec Input TPM. Burndown s'applique. Aucune. Burndown s'applique.
RPM 10 000 (répartis sur tous les modèles) Varie *
On-demand gradins Standard Standard, Priority, Flex (quelques exceptions) — consultez les pages détaillées des modèles pour connaître la disponibilité
Par lots Non Oui, pour les modèles pris en charge. Consultez les pages détaillées des modèles pour connaître leur disponibilité
Capacité réservée Aucune Tier/Provisioned Capacité réservée

* Les quotas pour ces modèles varient en fonction de l'utilisation. Consultez la page Quotas de la console Amazon Bedrock pour connaître vos allocations.

Comprendre les réponses aux erreurs HTTP

HTTP 429

Une réponse 429 signifie que vous avez dépassé la limite de tours par minute de votre compte. Réduisez le taux de soumission de vos demandes. Si vous avez besoin d'une allocation de tours par minute plus élevée, demandez une augmentation via la console Service Quotas ou contactez votre Compte AWS équipe.

HTTP 503

Une réponse 503 signifie qu'il y a une demande accrue pour Amazon Bedrock dans cette région. Vous devez réduire le taux de demandes, puis réessayer avec un retard exponentiel ou répartir le trafic entre les régions.

Gestion des erreurs recommandée

Erreurs transitoires (503 réponses occasionnelles)

Implémentez un recul exponentiel avec une instabilité aléatoire :

  • Commencez par un court délai (1 seconde, par exemple).

  • Doublez le délai après chaque tentative infructueuse.

  • Limitez les tentatives à 6 tentatives.

La plupart AWS des SDK et des bibliothèques HTTP populaires fournissent un support intégré pour ce modèle.

Exemple Réessayez la configuration pour bedrock-runtime (AWS SDK (//boto3)
import boto3 from botocore.config import Config config = Config(retries={"total_max_attempts": 6, "mode": "standard"}) client = boto3.client("bedrock-runtime", config=config)
Exemple Réessayer la configuration de Bedrock-mantle (SDK OpenAI)
from openai import OpenAI client = OpenAI( api_key=api_key, base_url=f"https://bedrock-mantle.{region}.api.aws/v1", max_retries=6, timeout=60.0, )
Exemple Réessayer la configuration pour Bedrock-mantle (SDK Anthropic)
import anthropic client = anthropic.Anthropic( api_key=api_key, base_url=f"https://bedrock-mantle.{region}.api.aws", max_retries=6, timeout=60.0, )

Erreurs persistantes (503 réponses persistantes)

Si vous recevez des erreurs 503 persistantes, une nouvelle tentative ne résoudra pas le problème à elle seule. Le taux de demandes dépasse le débit disponible. Suivez les étapes suivantes:

  • Réduisez la fréquence à laquelle votre candidature soumet de nouvelles demandes.

  • Implémentez la limitation du débit côté client ou la mise en file d'attente des demandes.

  • Supprimez les demandes moins prioritaires jusqu'à ce que le débit soit rétabli.

Augmenter le débit

Lorsque vous consommez du débit à la demande sur le bedrock-mantleterminal, le débit disponible évolue au fil du temps. Le succès de toutes les demandes dans les limites de votre quota n'est pas garanti pendant les périodes de forte demande. Il est donc important de les accélérer progressivement.

Procédure de montée en puissance recommandée

  1. Commencez par le volume de demandes cible, par exemple 500 tr/min.

  2. Si vous recevez 503 réponses, réduisez votre taux, par exemple de 50 %.

  3. Continuez à réduire à ce taux jusqu'à ce que vous atteigniez un état stable où les demandes aboutissent de manière constante.

  4. Maintenez cet état stable pendant une courte durée, disons 15 minutes.

  5. Augmentez à nouveau le débit, par exemple de 50 %, et maintenez pendant 15 minutes supplémentaires.

  6. Répétez l'opération jusqu'à ce que vous atteigniez le volume cible.

Par exemple, si votre objectif est de 2 000 tr/min mais que 503 erreurs s'affichent, réduisez à 1 000 tr/min. Si les erreurs persistent, réduisez à 500 tr/min. Une fois que les demandes aboutissent régulièrement à 500 tr/min, attendez 15 minutes, puis passez à 750, puis à 1 125, et ainsi de suite.

Les tarifs de rampe ne sont pas ajustables. Pour demander une allocation de RPM plus élevée, utilisez la console Service Quotas.

Bonnes pratiques supplémentaires

  • Utilisez des indicateurs de fonctionnalité pour transférer progressivement le trafic entre les modèles plutôt que de changer l'ensemble du trafic en une seule fois.

  • Répartissez les charges de travail importantes sur plusieurs minutes et tenez compte des horaires de la journée pour éviter les périodes de pointe d'utilisation.

  • Commencez les tests avec de petits lots et échelonnez-les progressivement. Évitez d'envoyer des milliers de demandes de test simultanément.

  • Pour le traitement de données hors ligne volumineuses, utilisez l'API Batch ou Flex Tier si votre application peut traiter les réponses de manière asynchrone.

Disponibilité régionale et inférence interrégionale

On-demand le débit est alloué au niveau régional et varie d'une région à l'autre. Si votre charge de travail cible une seule région, 503 réponses peuvent être reçues pendant les périodes de forte demande. Pour optimiser la disponibilité et si vous en utilisez bedrock-runtime, utilisezInférence interrégionale globale.

Obtenir de l'aide

  • Planification du débit : contactez votre Compte AWS équipe pour obtenir des prévisions de débit. Prévoyez un débit maximal de 2 à 3 fois lors des événements de mise à l'échelle.

  • Optimisation des performances : surveillez l'efficacité de l'utilisation des jetons, optimisez les instructions pour réduire la consommation de jetons et sélectionnez des modèles en fonction des exigences de votre cas d'utilisation.

  • Escalade du support : lorsque vous ouvrez un dossier de AWS support pour des problèmes de débit, incluez les éléments suivants : codes d'erreur spécifiques, ID de demande, modèles de trafic (RPM/TPM) et calendrier de mise à l'échelle.

Résumé des recommandations

Scénario Recommendation
Charges de travail générales Utilisez le bedrock-mantlepoint de terminaison dans la mesure du possible.
Erreurs 503 occasionnelles Réessayez avec un recul et une instabilité exponentiels.
503 erreurs persistantes Réduisez le taux de soumission des demandes. Implémentez la limitation du débit côté client.
Erreurs 429 Réduisez le taux de demandes. Demandez une allocation de tours par minute plus élevée via les Service Quotas.
Traitement hors ligne de grande envergure Utilisez l'API Batch ou Flex Tier.