Mode de comptabilisation des jetons dans Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Mode de comptabilisation des jetons dans Amazon Bedrock

Lorsque vous exécutez l’inférence de modèle, le nombre de jetons pouvant être traités est soumis à des quotas en fonction du modèle Amazon Bedrock que vous utilisez. Consultez la terminologie suivante relative aux quotas de jetons :

Durée Définition
InputTokenCount La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons dans une demande fournie en entrée dans le modèle.
OutputTokenCount La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons générés par le modèle en réponse à une demande.
CacheReadInputTokens La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons d'entrée qui ont été extraits avec succès d'un cache au lieu d'être retraités par le modèle. Cette valeur est 0 si vous n’utilisez pas la mise en cache des invites.
CacheWriteInputTokens La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons d'entrée qui ont été écrits avec succès dans le cache. Cette valeur est 0 si vous n’utilisez pas la mise en cache des invites.
Jetons par minute (TPM) Un quota défini AWS au niveau du modèle sur le nombre de jetons (entrée et sortie inclus) que vous pouvez utiliser en une minute.
Jetons par jour (TDP) Un quota défini AWS au niveau du modèle sur le nombre de jetons (entrée et sortie inclus) que vous pouvez utiliser en une journée. Par défaut, cette valeur est TPM x 24 x 60. Cependant, les nouveaux Comptes AWS pays ont réduit leurs quotas.
Demandes par minute (RPM) Un quota défini AWS au niveau du modèle sur le nombre de demandes que vous pouvez envoyer en une minute.
max_tokens Un paramètre que vous fournissez dans votre demande pour définir le nombre maximum de jetons de sortie que le modèle peut générer.
Taux de destruction Vitesse à laquelle les jetons d’entrée et de sortie sont convertis en quotas de jetons utilisés par le système de limitation.

Le taux de destruction des modèles suivants est de x5 pour les jetons de sortie (1 jeton de sortie consomme 5 jetons de vos quotas) :

  • AnthropicClaude Opus4

  • AnthropicClaude Opus4,1

  • Anthropic Claude Sonnet 4.5

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

  • AnthropicClaude 3 Haiku4,5

Pour tous les autres modèles, le taux de destruction est de 1:1 (1 jeton de sortie consomme 1 jeton de votre quota).

Compréhension de la gestion des quotas de jetons

Lorsque vous envoyez une demande, les jetons sont déduits de vos quotas TPM et TDP. Les calculs se déroulent selon les étapes suivantes :

  • Au début de la demande : en supposant que vous n’avez pas dépassé votre quota RPM, la somme suivante est déduite de vos quotas. La demande est limitée si vous dépassez un quota.

    Total input tokens + max_tokens
  • Pendant le traitement : le quota consommé par la demande est ajusté périodiquement pour tenir compte du nombre réel de jetons de sortie générés.

  • À la fin de la demande : le nombre total de jetons consommés par la demande sera calculé comme suit et tous les jetons non utilisés seront réapprovisionnés selon votre quota :

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    Si vous n’utilisez pas la mise en cache des invites, CacheWriteInputTokens aura pour valeur 0. Les CacheReadInputTokens ne contribuent pas à ce calcul.

Note

Vous n’êtes facturé que pour l’utilisation réelle de vos jetons.

Par exemple, si vous utilisez Anthropic Claude Sonnet 4 et envoyez une demande contenant 1 000 jetons d’entrée et qu’elle génère une réponse équivalente à 100 jetons :

  • 1 500 jetons (1 000 + 100 x 5) seront épuisés de vos quotas TPM et TDP.

  • Vous ne serez facturé que pour 1 100 jetons.

Compréhension de l’impact du paramètre max_tokens

La valeur max_tokens est déduite de votre quota au début de chaque demande. Si vous atteignez les quotas de TPM plus tôt que prévu, essayez de réduire les max_tokens pour obtenir une meilleure approximation de la taille de vos résultats.

Les scénarios suivants fournissent des exemples de la façon dont les déductions de quotas auraient fonctionné sur les demandes traitées en utilisant un modèle dont le taux de destruction des jetons de sortie est 5 fois supérieur :

Supposons les paramètres suivants :

  • InputTokenCount: 3 000

  • CacheReadInputTokens: 4 000

  • CacheWriteInputTokens: 1 000

  • OutputTokenCount: 1 000

  • max_tokens : 32 000

Les déductions de quotas suivantes ont lieu :

  • Déduction initiale lorsque la demande est faite : 40 000 (= 3 000 + 4 000 + 1 000 + 32 000)

  • Déduction ajustée finale après génération de la réponse : 9 000 (= 3 000 + 1 000 + 1 000 x 5)

Dans ce scénario, moins de demandes simultanées pourraient être effectuées, car le paramètre max_tokens était défini à un niveau trop élevé. Cela réduit la simultanéité des demandes, le débit et l’utilisation des quotas, car la capacité du quota TPM serait atteinte rapidement.

Supposons les paramètres suivants :

  • InputTokenCount: 3 000

  • CacheReadInputTokens: 4 000

  • CacheWriteInputTokens: 1 000

  • OutputTokenCount: 1 000

  • max_tokens : 1 250

Les déductions de quotas suivantes ont lieu :

  • Déduction initiale lorsque la demande est faite : 9 250 (= 3 000 + 4 000 + 1 000 + 1 250)

  • Déduction ajustée finale après génération de la réponse : 9 000 (= 3 000 + 1 000 + 1 000 x 5)

Dans ce scénario, le paramètre max_tokens a été optimisé, car la déduction initiale n’est que légèrement supérieure à la déduction ajustée finale. Cela a permis d’augmenter la simultanéité des demandes, le débit et l’utilisation des quotas.

Optimisation du paramètre max_tokens

En optimisant le paramètre max_tokens, vous pouvez utiliser efficacement la capacité de quota qui vous est allouée. Pour vous aider à prendre une décision éclairée concernant ce paramètre, vous pouvez utiliser Amazon CloudWatch, qui collecte automatiquement les statistiques des AWS services, y compris les données d'utilisation des jetons dans Amazon Bedrock.

Les jetons sont enregistrés dans les métriques d’exécution InputTokenCount et OutputTokenCount (pour plus de métriques, consultez Métriques d’exécution Amazon Bedrock.

Pour utiliser CloudWatch la surveillance afin de prendre une décision éclairée concernant le max_tokens paramètre, procédez comme suit dans AWS Management Console :

  1. Connectez-vous à la CloudWatch console Amazon à l'adresse https://console.aws.amazon.com/cloudwatch.

  2. Dans le volet de navigation de gauche, sélectionnez Tableaux de bord.

  3. Sélectionnez l’onglet Tableaux de bord automatiques.

  4. Sélectionnez Bedrock.

  5. Dans le tableau de bord Nombre de jetons par modèle, sélectionnez l’icône de développement.

  6. Sélectionnez une durée et des paramètres de plage pour les métriques afin de tenir compte de l’utilisation de pointe.

  7. Dans le menu déroulant Somme, vous pouvez choisir différentes métriques pour observer l’utilisation de vos jetons. Examinez ces métriques pour orienter votre décision quant à la définition de votre valeur max_tokens.