Compréhension de la gestion des quotas de jetons Compréhension de l’impact du paramètre max_tokens Optimisation du paramètre max_tokens

Mode de comptabilisation des jetons dans Amazon Bedrock

Lorsque vous exécutez l’inférence de modèle, le nombre de jetons pouvant être traités est soumis à des quotas en fonction du modèle Amazon Bedrock que vous utilisez. Consultez la terminologie suivante relative aux quotas de jetons :

Durée	Définition
`InputTokenCount`	La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons d'entrée traités par le modèle, à l'exclusion des jetons mis en cache. Pour déterminer votre consommation totale de jetons d'entrée par rapport à votre quota, faites la somme`InputTokenCount + CacheWriteInputTokens`.
`OutputTokenCount`	La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons générés par le modèle en réponse à une demande.
`CacheReadInputTokens`	La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons d'entrée qui ont été extraits avec succès d'un cache au lieu d'être retraités par le modèle. Cette valeur est 0 si vous n’utilisez pas la mise en cache des invites.
`CacheWriteInputTokens`	La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons d'entrée qui ont été écrits avec succès dans le cache. Cette valeur est 0 si vous n’utilisez pas la mise en cache des invites.
Jetons par minute (TPM)	Un quota défini AWS au niveau du modèle sur le nombre de jetons (entrée et sortie inclus) que vous pouvez utiliser en une minute.
Jetons par jour (TDP)	Un quota défini AWS au niveau du modèle sur le nombre de jetons (entrée et sortie inclus) que vous pouvez utiliser en une journée. Par défaut, cette valeur est TPM x 24 x 60. Cependant, les nouveaux Comptes AWS pays ont réduit leurs quotas.
`max_tokens`	Un paramètre que vous fournissez dans votre demande pour définir le nombre maximum de jetons de sortie que le modèle peut générer.
Taux de destruction	Vitesse à laquelle les jetons d’entrée et de sortie sont convertis en quotas de jetons utilisés par le système de limitation.

Le taux de combustion pour les modèles Anthropic Claude version 4.8 est de 15 fois pour les jetons de sortie (1 jeton de sortie consomme 15 jetons de vos quotas) et le taux de combustion pour Anthropic Claude Sonnet 5 est de 10 fois pour les jetons de sortie. Pour tous les autres modèles Anthropic versions 4.7 et antérieures, le burndown est de 5 fois plus élevé pour les jetons de sortie (1 jeton de sortie consomme 5 jetons de vos quotas).

Pour tous les autres modèles, le taux de destruction est de 1:1 (1 jeton de sortie consomme 1 jeton de votre quota).

Les taux d'épuisement des jetons s'appliquent uniquement aux modèles disponibles sur le bedrock-runtime terminal. Les modèles disponibles exclusivement sur le bedrock-mantle terminal ont des quotas distincts pour les jetons d'entrée et de sortie, de sorte que le burndown ne s'applique pas.

Rubriques

Compréhension de la gestion des quotas de jetons
Compréhension de l’impact du paramètre max_tokens
Optimisation du paramètre max_tokens

Compréhension de la gestion des quotas de jetons

Lorsque vous envoyez une demande, les jetons sont déduits de vos quotas TPM et TDP. Les calculs se déroulent selon les étapes suivantes :

Au début de la demande — La somme suivante est déduite de vos quotas. La demande est limitée si vous dépassez un quota.
```
Total input tokens + max_tokens
```
Pendant le traitement : le quota consommé par la demande est ajusté périodiquement pour tenir compte du nombre réel de jetons de sortie générés.
À la fin de la demande : le nombre total de jetons consommés par la demande sera calculé comme suit et tous les jetons non utilisés seront réapprovisionnés selon votre quota :
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
CacheReadInputTokensne contribuez pas à ce calcul et ne sont pas pris en compte dans votre quota. Si vous n'utilisez pas la mise en cache rapide, les deux CacheWriteInputTokens et CacheReadInputTokens seront égaux à 0.

Note

Vous n’êtes facturé que pour l’utilisation réelle de vos jetons.

Par exemple, si vous utilisez Anthropic Claude Sonnet 4 et envoyez une demande contenant 1 000 jetons d’entrée et qu’elle génère une réponse équivalente à 100 jetons :

1 500 jetons (1 000 + 100 x 5) seront épuisés de vos quotas TPM et TDP.
Vous ne serez facturé que pour 1 100 jetons.

Compréhension de l’impact du paramètre max_tokens

La valeur max_tokens est déduite de votre quota au début de chaque demande. Si vous atteignez les quotas de TPM plus tôt que prévu, essayez de réduire les max_tokens pour obtenir une meilleure approximation de la taille de vos résultats.

Les scénarios suivants fournissent des exemples de la façon dont les déductions de quotas auraient fonctionné sur les demandes traitées en utilisant un modèle dont le taux de destruction des jetons de sortie est 5 fois supérieur :

Supposons les paramètres suivants :

InputTokenCount: 3 000
CacheReadInputTokens: 4 000
CacheWriteInputTokens: 1 000
OutputTokenCount: 1 000
max_tokens : 32 000

Les déductions de quotas suivantes ont lieu :

Déduction initiale lorsque la demande est faite : 36 000 (= 3 000 + 1 000 + 32 000)
Déduction ajustée finale après génération de la réponse : 9 000 (= 3 000 + 1 000 + 1 000 x 5)

Dans ce scénario, moins de demandes simultanées pourraient être effectuées, car le paramètre max_tokens était défini à un niveau trop élevé. Cela réduit la simultanéité des demandes, le débit et l'utilisation des quotas, car la capacité du quota TPM serait atteinte rapidement.

Supposons les paramètres suivants :

InputTokenCount: 3 000
CacheReadInputTokens: 4 000
CacheWriteInputTokens: 1 000
OutputTokenCount: 1 000
max_tokens : 1 250

Les déductions de quotas suivantes ont lieu :

Déduction initiale lors de la demande : 5 250 (= 3 000 + 1 000 + 1 250)
Déduction ajustée finale après génération de la réponse : 9 000 (= 3 000 + 1 000 + 1 000 x 5)

Dans ce scénario, le paramètre max_tokens a été optimisé, car la déduction initiale n’est que légèrement supérieure à la déduction ajustée finale. Cela a permis d'augmenter la simultanéité des demandes, le débit et l'utilisation des quotas.

Optimisation du paramètre max_tokens

En optimisant le max_tokens paramètre, vous pouvez utiliser efficacement la capacité de quota qui vous est allouée. Pour vous aider à prendre une décision éclairée concernant ce paramètre, vous pouvez utiliser Amazon CloudWatch, qui collecte automatiquement les statistiques des AWS services, y compris les données d'utilisation des jetons dans Amazon Bedrock.

Les jetons sont enregistrés dans les métriques d’exécution InputTokenCount et OutputTokenCount (pour plus de métriques, consultez Métriques d’exécution Amazon Bedrock.

Pour utiliser CloudWatch la surveillance afin de prendre une décision éclairée concernant le max_tokens paramètre, procédez comme suit dans AWS Management Console :

Connectez-vous à la CloudWatch console Amazon à l'adresse https://console.aws.amazon.com/cloudwatch.
Dans le volet de navigation de gauche, sélectionnez Tableaux de bord.
Sélectionnez l’onglet Tableaux de bord automatiques.
Sélectionnez Bedrock.
Dans le tableau de bord Nombre de jetons par modèle, sélectionnez l’icône de développement.
Sélectionnez une durée et des paramètres de plage pour les métriques afin de tenir compte de l’utilisation de pointe.
Dans le menu déroulant Somme, vous pouvez choisir différentes métriques pour observer l’utilisation de vos jetons. Examinez ces métriques pour orienter votre décision quant à la définition de votre valeur max_tokens.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Quotas

CountTokens API