View a markdown version of this page

在运行推理之前,通过计算词元来监控您的词元使用情况 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在运行推理之前,通过计算词元来监控您的词元使用情况

运行模型推理时,您在输入中发送的词元数量,会计入到请求的成本中,还会计入到您每分钟和每天可以使用的词元配额中。该 CountTokensAPI 可帮助您在向基础模型发送请求之前估算令牌使用情况,方法是返回在推理请求中向模型发送相同输入时将使用的令牌数量。

注意

使用 CountTokensAPI 不会产生任何费用。

注意

某些 Anthropic Claude 模型,包括那些仅在开启跨区域推理 (CRIS) 的情况下启动的模型,不支持开bedrock-runtime启。CountTokensbedrock-runtime对于这些模型,请改为在bedrock-mantle端点上调用 Anthropic 的 count_tokens API 来计算输入标记。使用基岩地幔端点计算代币有关 URL、请求正文和示例,请参阅。

词元计数特定于模型,因为不同的模型使用不同的词元计算策略。此操作返回的词元计数,与向模型发送相同输入来运行推理时将收费的词元计数相符。

您可以使用 CountTokens API 来执行以下操作:

  • 在发送推理请求之前估算成本。

  • 优化提示以适应词元限制。

  • 规划应用程序中的词元使用量。

支持词元计数的模型和区域

要查看哪些型号支持代币计数,请快速访问模型并选择您感兴趣的型号。

使用基岩运行时端点对代币进行计数

要计算推理请求中输入令牌的数量,请发送带有 Amazon Bedrock 运行时终端节点CountTokens请求,在标题中指定模型,在字段中指定要计算令牌的输入。bodybody字段的值取决于您是在计算输入令牌还是 C onverse 请求InvokeModel的输入标记:

  • 对于 InvokeModel 请求,body 的格式是表示一个 JSON 对象的字符串,其格式取决于您指定的模型。

  • 对于 Converse 请求,body 的格式是一个 JSON 对象,指定对话中包含的 messagessystem 提示。

示例:计算基岩运行时请求的代币

此部分中的示例让您可以对通过 InvokeModelConverse 发出的 Anthropic 和 Claude 3 Haiku 计算词元数量。

先决条件
  • 您已下载 适用于 Python (Boto3) 的 AWS SDK 并且您的配置已设置为可以自动识别您的凭据和默认 AWS 区域。

  • 您的 IAM 身份有权执行以下操作(有关更多信息,请参阅 Amazon Bedrock 的操作、资源和条件键):

    • 基岩:CountTokens —允许使用. CountTokens

    • 基岩:InvokeModel — 允许使用InvokeModel和。Converse应至少将范围限arn:${Partition}:bedrock:${Region}::foundation-model/anthropic.claude-3-haiku-20240307-v1:0定为。

要尝试计算InvokeModel请求的令牌,请运行以下 Python 代码:

import boto3 import json bedrock_runtime = boto3.client("bedrock-runtime") input_to_count = json.dumps({ "anthropic_version": "bedrock-2023-05-31", "max_tokens": 500, "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }) response = bedrock_runtime.count_tokens( modelId="anthropic.claude-3-5-haiku-20241022-v1:0", input={ "invokeModel": { "body": input_to_count } } ) print(response["inputTokens"])

要尝试计算用于 Converse 请求的词元,请运行以下 Python 代码:

import boto3 import json bedrock_runtime = boto3.client("bedrock-runtime") input_to_count = { "messages": [ { "role": "user", "content": [ { "text": "What is the capital of France?" } ] }, { "role": "assistant", "content": [ { "text": "The capital of France is Paris." } ] }, { "role": "user", "content": [ { "text": "What is its population?" } ] } ], "system": [ { "text": "You're an expert in geography." } ] } response = bedrock_runtime.count_tokens( modelId="anthropic.claude-3-5-haiku-20241022-v1:0", input={ "converse": input_to_count } ) print(response["inputTokens"])

使用基岩地幔端点计算代币

bedrock-mantle端点在以下位置公开了 Anthropic 的 count_tokens API。/anthropic/v1/messages/count_tokens使用它来计算不支持CountTokens的 Anthropic Claude 模型的输入标记,例如,当模型仅通过跨区域推理 (CRIS) 提供bedrock-runtime且没有 Region-specific 目标端点时。bedrock-runtime CountTokens/anthropic/v1/messages径是 Claude-specific;非人类模型回归。bedrock-mantle The model 'X' does not support the '/anthropic/v1/messages' API

请求详细信息
  • 网址POST https://bedrock-mantle.region.api.aws/anthropic/v1/messages/count_tokens. 有关受支持的区域,请参阅 支持的区域和终端节点

  • 请求正文 — Anthropic count_tokens 形状,包括modelmessages、以及可选systemtools字段。请参阅 Anthropic 消息计数代币参考

  • 身份验证 — 要么是带有服务名称的 SigV4 签名bedrock-mantle,要么是标题中传递的 Amazon Bedrock API 密钥。x-api-key请参阅API 密钥

  • IAM 操作bedrock-mantle:CountTokens. 授权范围仅限于该表单的 Amazon Bed rock Projec t 资源。arn:aws:bedrock-mantle:region:account-id:project/project-name默认项目名称为default

  • SDK 支持 — AWS SDK 目前未公开针对此端点的方法。以 SigV4-signed HTTP 形式发送请求POST,或者使用任何带有 Amazon Bedrock API 密钥的 HTTP 客户端。bedrock-runtime客户端方法count_tokens不以此端点为目标,并且会针对不支持的模型返回验证错误bedrock-runtime

  • 错误格式 —错误遵循人类形状:{"type": "error", "request_id": "...", "error": {"type": "error-type", "message": "error-message"}}. 这与返回的标准 AWS JSON 错误信封不同bedrock-runtime

注意

count_tokens端点使用与相应推理端点相同的架构来验证请求正文,因此 HTTP 400 拒绝模型不支持的请求字段。例如,Anthropic Claude Opus 4.7 不接受并退货strict: truetools[] tools.0.custom.strict: Extra inputs are not permitted有关特定于模型的特征表面,请查阅模型卡

以下示例使用curl与 Amazon Bedrock API 密钥一起计算bedrock-mantle终端节点上的令牌数量:

curl -X POST https://bedrock-mantle.us-east-1.api.aws/anthropic/v1/messages/count_tokens \ -H "x-api-key: $BEDROCK_API_KEY" \ -H "anthropic-version: 2023-06-01" \ -H "Content-Type: application/json" \ -d '{ "model": "anthropic.claude-opus-4-7", "messages": [ {"role": "user", "content": "How many tokens is this prompt?"} ] }'

响应包含一个input_tokens字段,其值是所提供输入的令牌计数。