Amazon Bedrock에서 토큰을 계산하는 방법 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Bedrock에서 토큰을 계산하는 방법

모델 추론을 실행할 때 사용하는 Amazon Bedrock 모델에 따라 처리할 수 있는 토큰 수에 대한 할당량이 있습니다. 토큰 할당량과 관련된 다음 용어를 검토합니다.

용어 정의
InputTokenCount 모델에 대한 입력으로 제공된 요청의 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다.
OutputTokenCount 요청에 대한 응답으로 모델에서 생성된 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다.
CacheReadInputTokens 모델에 의해 재처리되는 대신 캐시에서 성공적으로 검색된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. 프롬프트 캐싱을 사용하지 않는 경우이 값은 0입니다.
CacheWriteInputTokens 캐시에 성공적으로 기록된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. 프롬프트 캐싱을 사용하지 않는 경우이 값은 0입니다.
분당 토큰 수(TPM) 1분 동안 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다.
일일 토큰 수(TPD) 하루에 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다. 기본적으로이 값은 TPM x 24 x 60입니다. 그러나 새로운 AWS 계정 는 할당량을 줄였습니다.
분당 요청 수(RPM) 1분 동안 보낼 수 있는 요청 수에 대해 AWS 모델 수준에서가 설정한 할당량입니다.
max_tokens 모델이 생성할 수 있는 최대 출력 토큰 양을 설정하기 위해 요청에 제공하는 파라미터입니다.
축소율 입력 및 출력 토큰이 제한 시스템의 토큰 할당량 사용량으로 변환되는 속도입니다.

다음 모델의 연소율은 출력 토큰의 경우 5배입니다(출력 토큰 1개는 할당량에서 토큰 5개를 사용합니다).

  • Anthropic Claude Opus 4

  • Anthropic Claude Sonnet 4

  • Anthropic Claude 3.7 Sonnet

다른 모든 모델의 경우 연소율은 1:1입니다(출력 토큰 1개는 할당량에서 토큰 1개를 사용함).

토큰 할당량 관리 이해

요청을 하면 토큰이 TPM 및 TPD 할당량에서 공제됩니다. 계산은 다음 단계에서 이루어집니다.

  • 요청 시작 시 - RPM 할당량을 초과하지 않았다고 가정하면 다음 합계가 할당량에서 공제됩니다. 할당량을 초과하면 요청이 제한됩니다.

    Total input tokens + max_tokens
  • 처리 중 - 요청에 사용된 할당량은 생성된 실제 출력 토큰 수를 고려하여 주기적으로 조정됩니다.

  • 요청 종료 시 - 요청에 사용된 총 토큰 수는 다음과 같이 계산되며 사용하지 않은 토큰은 할당량에 보충됩니다.

    InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)

    프롬프트 캐싱을 사용하지 않으면 CacheWriteInputTokens는 0이 됩니다.이 계산에 기여하지 CacheReadInputTokens 마십시오.

참고

실제 토큰 사용량에 대해서만 요금이 청구됩니다.

예를 들어 Anthropic Claude Sonnet 4를 사용하고 1,000개의 입력 토큰이 포함된 요청을 전송하고 100개의 토큰에 해당하는 응답을 생성하는 경우:

  • TPM 및 TPD 할당량에서 1,500개의 토큰(1,000 + 100 x 5)이 고갈됩니다.

  • 토큰 1,100개에 대해서만 요금이 청구됩니다.

max_tokens 파라미터의 영향 이해

max_tokens 값은 각 요청 시작 시 할당량에서 공제됩니다. 예상보다 일찍 TPM 할당량에 도달하는 경우 완료 크기에 더 근접max_tokens하도록 줄이세요.

다음 시나리오에서는 출력 토큰의 연소율이 5배인 모델을 사용하여 완료된 요청에서 할당량 공제가 어떻게 작동했는지에 대한 예를 제공합니다.

다음 파라미터를 가정합니다.

  • InputTokenCount: 3,000

  • CacheReadInputTokens: 4,000

  • CacheWriteInputTokens: 1,000

  • OutputTokenCount: 1,000

  • max_tokens: 32,000

다음과 같은 할당량 공제가 이루어집니다.

  • 요청 시 초기 공제: 40,000(= 3,000 + 4,000 + 1,000 + 32,000)

  • 응답 생성 후 최종 조정 공제: 9,000(= 3,000 + 1,000 + 1,000 x 5)

이 시나리오에서는 max_tokens 파라미터가 너무 높게 설정되었기 때문에 동시 요청을 줄일 수 있습니다. 이렇게 하면 TPM 할당량 용량에 빠르게 도달할 수 있으므로 요청 동시성, 처리량 및 할당량 사용률이 줄어듭니다.

다음 파라미터를 가정합니다.

  • InputTokenCount: 3,000

  • CacheReadInputTokens: 4,000

  • CacheWriteInputTokens: 1,000

  • OutputTokenCount: 1,000

  • max_tokens: 1,250

다음과 같은 할당량 공제가 이루어집니다.

  • 요청 시 초기 공제: 9,250(= 3,000 + 4,000 + 1,000 + 1,250)

  • 응답 생성 후 최종 조정 공제: 9,000(= 3,000 + 1,000 + 1,000 x 5)

이 시나리오에서는 초기 공제가 최종 조정 공제보다 약간 높기 때문에 max_tokens 파라미터가 최적화되었습니다. 이렇게 하면 요청 동시성, 처리량 및 할당량 사용률을 높이는 데 도움이 되었습니다.

max_tokens 파라미터 최적화

max_tokens 파라미터를 최적화하면 할당된 할당량을 효율적으로 활용할 수 있습니다. 이 파라미터에 대한 결정을 알리는 데 도움이 되도록 Amazon Bedrock의 토큰 사용 데이터를 포함하여 서비스에서 지표를 자동으로 수집하는 Amazon CloudWatch를 사용할 수 있습니다. AWS

토큰은 InputTokenCountOutputTokenCount 런타임 지표에 기록됩니다(자세한 지표는 섹션을 참조하세요Amazon Bedrock 런타임 지표.

CloudWatch 모니터링을 사용하여 max_tokens 파라미터 결정을 알리려면에서 AWS Management Console다음을 수행합니다.

  1. https://console.aws.amazon.com/cloudwatch Amazon CloudWatch 콘솔에 로그인합니다.

  2. 왼쪽 탐색 창에서 대시보드를 선택합니다.

  3. 자동 대시보드 탭을 선택합니다.

  4. Bedrock을 선택합니다.

  5. 모델별 토큰 수 대시보드에서 확장 아이콘을 선택합니다.

  6. 최대 사용량을 고려할 지표의 기간 및 범위 파라미터를 선택합니다.

  7. Sum이라는 드롭다운 메뉴에서 다른 지표를 선택하여 토큰 사용량을 관찰할 수 있습니다. 이러한 지표를 검토하여 max_tokens 값 설정에 대한 결정을 안내합니다.