Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Quotas pour Amazon Bedrock
Vous Compte AWS disposez de quotas par défaut, anciennement appelés limites, pour Amazon Bedrock. Pour consulter les quotas de service pour Amazon Bedrock, effectuez l'une des opérations suivantes :
-
Suivez les étapes décrites dans Afficher les quotas de service et sélectionnez Amazon Bedrock comme service.
-
Reportez-vous aux quotas de service Amazon Bedrock dans le Références générales AWS.
Pour maintenir les performances du service et garantir une utilisation appropriée d'Amazon Bedrock, les quotas par défaut attribués à un compte peuvent être mis à jour en fonction de facteurs régionaux, de l'historique des paiements, de l'utilisation frauduleuse ou de l' and/or approbation d'une demande d'augmentation de quota.
Note
Pour maintenir les performances et garantir une utilisation appropriée d'Amazon Bedrock, AWS limitez votre utilisation en fonction des quotas de votre compte pour les demandes par minute (RPM), les jetons par minute (TPM) et les jetons par jour (TDP). La limite par défaut de jetons par jour est de jetons par minute * 24 * 60. Cependant, les nouveaux Comptes AWS pays ont réduit leurs quotas de jetons par jour. Vous pouvez demander une augmentation de quota comme décrit dans la section suivante.
Pour consulter les limites de jetons par jour de votre compte, sélectionnez Amazon Bedrock sur la page des Quotas de AWS Management Console Service
Rubriques
Demandez une augmentation des quotas d'Amazon Bedrock
Les étapes à suivre pour demander une augmentation de quota pour votre compte dépendent de la valeur indiquée dans la colonne Réglable du tableau des quotas des services Amazon Bedrock :
-
Si un quota est marqué Oui, vous pouvez l'ajuster en suivant les étapes décrites dans la section Demander une augmentation de quota dans le Guide de l'utilisateur du Service Quotas.
-
Quel que soit le modèle, vous pouvez demander une augmentation pour les quotas suivants en même temps :
-
InvokeModel Jetons interrégionaux par minute pour
${model}
-
InvokeModel Demandes interrégionales par minute pour
${model}
-
InvokeModel Jetons à la demande par minute pour
${model}
-
InvokeModel Demandes à la demande par minute pour
${model}
-
Modèle d'invocation, nombre maximum de jetons par jour pour
${model}
Pour demander une augmentation pour n'importe quelle combinaison de ces quotas, demandez une augmentation du nombre de InvokeModel jetons interrégionaux par minute pour le
${model}
quota en suivant les étapes décrites dans la section Demander une augmentation de quota dans le Guide de l'utilisateur du Service Quotas. Une fois cela fait, l'équipe d'assistance vous contactera et vous proposera la possibilité d'augmenter également les quatre autres quotas.Note
En raison de la forte demande, la priorité sera accordée aux clients dont le trafic consomme le quota qui leur est alloué. Votre demande peut être refusée si vous ne remplissez pas cette condition.
-
Taux de combustion des jetons pour AnthropicClaude 4 modèles
Quotas d'inférence pour les modèles présentant des taux de combustion des jetons non standard.
Les quotas d'inférence du modèle Amazon Bedrock sont mesurés en deux dimensions : RPM (demandes par minute) et TPM (jetons par minute). Les quotas peuvent être atteints dans n'importe quelle dimension en fonction de ce qui se passe en premier.
Un taux de burn-down est un ratio qui convertit les jetons d'entrée et de sortie en quotas de jetons utilisés par le système de régulation. Ce ratio représente le taux auquel les jetons d'entrée et de sortie sont pris en compte dans les quotas de jetons.
La plupart des modèles ont un taux de combustion de 1 jeton pour 1 jeton d'entrée ou 1 jeton de sortie, à l'exception de Anthropic Claude 4 modèles. Consultez les tableaux ci-dessous pour connaître les Anthropic Claude 4 taux de burn-down. Pour plus d'informations sur l'utilisation et la tarification des jetons dans Amazon Bedrock, consultez la section Tarification d'Amazon Bedrock
Nous utilisons la max_tokens
valeur spécifiée dans la demande d'API pour estimer la réduction de la production par rapport aux quotas de jetons lorsque nous recevons votre demande. Nous ajustons le burndown de sortie en fonction de l'utilisation réelle à la fin de la demande. Pour éviter un ralentissement précoce, sélectionnez une max_tokens
valeur proche de vos jetons de sortie attendus.
Modèle |
Jeton de saisie |
Jeton de sortie |
---|---|---|
Claude Opus 4 |
1 jeton par jeton d'entrée |
5 jetons par jeton de sortie |
Claude Sonnet 4 |
1 jeton par jeton d'entrée |
5 jetons par jeton de sortie |