Comment les jetons sont-ils comptés dans Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comment les jetons sont-ils comptés dans Amazon Bedrock

Lorsque vous exécutez l'inférence de modèles, le nombre de jetons pouvant être traités est soumis à des quotas en fonction du modèle Amazon Bedrock que vous utilisez. Consultez la terminologie suivante relative aux quotas de jetons :

Durée Définition
InputTokenCount La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons dans une demande fournie en entrée dans le modèle.
OutputTokenCount La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons générés par le modèle en réponse à une demande.
CacheReadInputTokens La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons d'entrée qui ont été extraits avec succès d'un cache au lieu d'être retraités par le modèle. Cette valeur est 0 si vous n'utilisez pas la mise en cache rapide.
CacheWriteInputTokens La métrique d'exécution d' CloudWatch Amazon Bedrock qui représente le nombre de jetons d'entrée qui ont été écrits avec succès dans le cache. Cette valeur est 0 si vous n'utilisez pas la mise en cache rapide.
Jetons par minute (TPM) Un quota défini AWS au niveau du modèle sur le nombre de jetons (entrée et sortie inclus) que vous pouvez utiliser en une minute.
Tokens par jour (TDP) Un quota défini AWS au niveau du modèle sur le nombre de jetons (entrée et sortie inclus) que vous pouvez utiliser en une journée. Par défaut, cette valeur est TPM x 24 x 60. Cependant, les nouveaux Comptes AWS pays ont réduit leurs quotas.
Demandes par minute (RPM) Un quota défini AWS au niveau du modèle sur le nombre de demandes que vous pouvez envoyer en une minute.
max_tokens Paramètre que vous fournissez dans votre demande pour définir le nombre maximum de jetons de sortie que le modèle peut générer.
Taux de burn-down Vitesse à laquelle les jetons d'entrée et de sortie sont convertis en quotas de jetons utilisés par le système de régulation.

Le taux de combustion des modèles suivants est 5 fois supérieur à celui des jetons de sortie (1 jeton de sortie consomme 5 jetons de vos quotas) :

  • AnthropicClaude Opus4

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

Pour tous les autres modèles, le taux de combustion est de 1:1 (1 jeton de sortie consomme 1 jeton de votre quota).

Comprendre la gestion des quotas de jetons

Lorsque vous faites une demande, les jetons sont déduits de vos quotas TPM et TDP. Les calculs ont lieu aux étapes suivantes :

  • Au début de la demande : en supposant que vous n'avez pas dépassé votre quota de tours par minute, la somme suivante est déduite de vos quotas. La demande est limitée si vous dépassez un quota.

    Total input tokens + max_tokens
  • Pendant le traitement — Le quota consommé par la demande est ajusté périodiquement pour tenir compte du nombre réel de jetons de sortie générés.

  • À la fin de la demande, le nombre total de jetons consommés par la demande sera calculé comme suit et tous les jetons non utilisés seront réapprovisionnés selon votre quota :

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    Si vous n'utilisez pas la mise en cache rapide, CacheWriteInputTokens ce sera 0. CacheReadInputTokensne contribuez pas à ce calcul.

Note

Vous n'êtes facturé que pour l'utilisation réelle de vos jetons.

Par exemple, si vous utilisez Anthropic Claude Sonnet 4 et envoyez une demande contenant 1 000 jetons d'entrée et qu'elle génère une réponse équivalente à 100 jetons :

  • 1 500 jetons (1 000 + 100 x 5) seront épuisés de vos quotas TPM et TDP.

  • Vous ne serez facturé que pour 1 100 jetons.

Comprendre l'impact du paramètre max_tokens

La max_tokens valeur est déduite de votre quota au début de chaque demande. Si vous atteignez les quotas de TPM plus tôt que prévu, essayez de les réduire max_tokens pour obtenir une meilleure approximation de la taille de vos résultats.

Les scénarios suivants fournissent des exemples de la façon dont les déductions de quotas auraient fonctionné sur les demandes traitées en utilisant un modèle dont le taux de combustion des jetons de sortie est 5 fois supérieur :

Supposons les paramètres suivants :

  • InputTokenCount: 3 000

  • CacheReadInputTokens: 4 000

  • CacheWriteInputTokens: 1 000

  • OutputTokenCount: 1 000

  • max_jetons : 32 000

Les déductions de quotas suivantes ont lieu :

  • Déduction initiale lorsque la demande est faite : 40 000 (= 3 000 + 4 000 + 1 000 + 32 000)

  • Déduction ajustée finale après génération de la réponse : 9 000 (= 3 000 + 1 000 + 1 000 x 5)

Dans ce scénario, moins de demandes simultanées pourraient être effectuées car le max_tokens paramètre était défini trop haut. Cela réduit la simultanéité des demandes, le débit et l'utilisation des quotas, car la capacité de quota du TPM serait atteinte rapidement.

Supposons les paramètres suivants :

  • InputTokenCount: 3 000

  • CacheReadInputTokens: 4 000

  • CacheWriteInputTokens: 1 000

  • OutputTokenCount: 1 000

  • Nombre maximum de jetons : 1 250

Les déductions de quotas suivantes ont lieu :

  • Déduction initiale lorsque la demande est faite : 9 250 (= 3 000 + 4 000 + 1 250)

  • Déduction ajustée finale après génération de la réponse : 9 000 (= 3 000 + 1 000 + 1 000 x 5)

Dans ce scénario, le max_tokens paramètre a été optimisé, car la déduction initiale n'est que légèrement supérieure à la déduction ajustée finale. Cela a permis d'augmenter la simultanéité des demandes, le débit et l'utilisation des quotas.

Optimisation du paramètre max_tokens

En optimisant le max_tokens paramètre, vous pouvez utiliser efficacement la capacité de quota qui vous est allouée. Pour vous aider à prendre une décision éclairée concernant ce paramètre, vous pouvez utiliser Amazon CloudWatch, qui collecte automatiquement les statistiques des AWS services, y compris les données d'utilisation des jetons dans Amazon Bedrock.

Les jetons sont enregistrés dans les métriques InputTokenCount et OutputTokenCount d'exécution (pour plus de métriques, voirStatistiques d'exécution d'Amazon Bedrock.

Pour utiliser CloudWatch la surveillance afin de vous aider à prendre votre décision concernant le max_tokens paramètre, procédez comme suit dans le AWS Management Console

  1. Connectez-vous à la CloudWatch console Amazon à l'adresse https://console.aws.amazon.com/cloudwatch.

  2. Dans le volet de navigation de gauche, sélectionnez Tableaux de bord.

  3. Sélectionnez l'onglet Tableaux de bord automatiques.

  4. Sélectionnez Bedrock.

  5. Dans le tableau de bord Nombre de jetons par modèle, sélectionnez l'icône d'extension.

  6. Sélectionnez une durée, une durée et des paramètres de plage pour les mesures afin de tenir compte de l'utilisation maximale.

  7. Dans le menu déroulant intitulé Sum, vous pouvez choisir différentes mesures pour observer l'utilisation de vos jetons. Examinez ces indicateurs pour orienter votre décision quant à la définition de votre max_tokens valeur.