토큰 할당량 관리 이해 max_tokens 파라미터의 영향 이해 max_tokens 파라미터 최적화

Amazon Bedrock에서 토큰을 계산하는 방법

모델 추론을 실행할 때 사용하는 Amazon Bedrock 모델에 따라 처리할 수 있는 토큰 수에 대한 할당량이 있습니다. 토큰 할당량과 관련된 다음 용어를 검토합니다.

용어	정의
`InputTokenCount`	캐시된 토큰을 제외하고 모델에서 처리한 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. 할당량에 대한 총 입력 토큰 소비를 확인하려면를 합산합니다`InputTokenCount + CacheWriteInputTokens`.
`OutputTokenCount`	요청에 대한 응답으로 모델에서 생성된 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다.
`CacheReadInputTokens`	모델에 의해 재처리되는 대신 캐시에서 성공적으로 검색된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. 프롬프트 캐싱을 사용하지 않는 경우 이 값은 0입니다.
`CacheWriteInputTokens`	캐시에 성공적으로 기록된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. 프롬프트 캐싱을 사용하지 않는 경우 이 값은 0입니다.
분당 토큰 수(TPM)	1분 동안 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다.
일일 토큰 수(TPD)	하루에 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다. 기본적으로 이 값은 TPM x 24 x 60입니다. 그러나 새로운 AWS 계정 는 할당량을 줄였습니다.
`max_tokens`	모델이 생성할 수 있는 최대 출력 토큰 양을 설정하기 위해 요청에 제공하는 파라미터입니다.
소진율	입력 및 출력 토큰이 스로틀링 시스템의 토큰 할당량 사용량으로 변환되는 속도입니다.

Anthropic Claude 모델 버전 4.8의 연소율은 출력 토큰의 경우 15배(출력 토큰 1개가 할당량에서 토큰 15개를 소비함)이고 Anthropic Claude Sonnet 5의 연소율은 출력 토큰의 경우 10배입니다. 다른 모든 Anthropic 모델 버전 4.7 이하의 경우 출력 토큰의 번다운은 5배입니다(출력 토큰 1개는 할당량에서 토큰 5개를 소비함).

다른 모든 모델의 경우 연소율은 1:1입니다(출력 토큰 1개는 할당량에서 토큰 1개를 사용함).

토큰 연소율은 bedrock-runtime 엔드포인트에서 사용 가능한 모델에만 적용됩니다. bedrock-mantle 엔드포인트에서만 사용할 수 있는 모델에는 입력 토큰과 출력 토큰에 대한 별도의 할당량이 있으므로 번다운이 적용되지 않습니다.

토큰 할당량 관리 이해

요청을 하면 토큰이 TPM 및 TPD 할당량에서 공제됩니다. 계산은 다음 단계에서 이루어집니다.

요청 시작 시 - 할당량에서 다음 합계가 공제됩니다. 할당량을 초과하면 요청이 제한됩니다.
```
Total input tokens + max_tokens
```
처리 중 - 요청에 사용된 할당량은 생성된 실제 출력 토큰 수를 고려하여 주기적으로 조정됩니다.
요청 종료 시 - 요청에 사용된 총 토큰 수는 다음과 같이 계산되며 사용하지 않은 토큰은 할당량에 보충됩니다.
```
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
```
CacheReadInputTokens는이 계산에 기여하지 않으며 할당량에 포함되지 않습니다. 프롬프트 캐싱을 사용하지 않으면 CacheWriteInputTokens 및 모두 0CacheReadInputTokens이 됩니다.

참고

실제 토큰 사용량에 대해서만 요금이 청구됩니다.

예를 들어 Anthropic Claude Sonnet 4를 사용하고 1,000개의 입력 토큰이 포함된 요청을 전송하고 100개의 토큰에 해당하는 응답을 생성하는 경우:

TPM 및 TPD 할당량에서 1,500개의 토큰(1,000 + 100 x 5)이 고갈됩니다.
토큰 1,100개에 대해서만 요금이 청구됩니다.

max_tokens 파라미터의 영향 이해

max_tokens 값은 각 요청 시작 시 할당량에서 공제됩니다. 예상보다 일찍 TPM 할당량에 도달하는 경우 완료 크기에 더 근접하도록 max_tokens를 줄이세요.

다음 시나리오에서는 출력 토큰의 소진율이 5배인 모델을 사용하여 완료된 요청에서 할당량 공제가 어떻게 작동했는지에 대한 예를 제공합니다.

다음 파라미터를 가정합니다.

InputTokenCount: 3,000
CacheReadInputTokens: 4,000
CacheWriteInputTokens: 1,000
OutputTokenCount: 1,000
max_tokens: 32,000

다음과 같은 할당량 공제가 이루어집니다.

요청 시 초기 공제: 36,000(= 3,000 + 1,000 + 32,000)
응답 생성 후 최종 조정 공제: 9,000(= 3,000 + 1,000 + 1,000 x 5)

이 시나리오에서는 max_tokens 파라미터가 너무 높게 설정되었기 때문에 동시 요청을 줄일 수 있습니다. 이렇게 하면 TPM 할당량 용량에 빠르게 도달할 수 있으므로 요청 동시성, 처리량 및 할당량 사용이 줄어듭니다.

다음 파라미터를 가정합니다.

InputTokenCount: 3,000
CacheReadInputTokens: 4,000
CacheWriteInputTokens: 1,000
OutputTokenCount: 1,000
max_tokens: 1,250

다음과 같은 할당량 공제가 이루어집니다.

요청 시 초기 공제: 5,250(= 3,000 + 1,000 + 1,250)
응답 생성 후 최종 조정 공제: 9,000(= 3,000 + 1,000 + 1,000 x 5)

이 시나리오에서는 초기 공제가 최종 조정 공제보다 약간 높기 때문에 max_tokens 파라미터가 최적화되었습니다. 이렇게 하면 요청 동시성, 처리량 및 할당량 사용을 늘리는 데 도움이 되었습니다.

max_tokens 파라미터 최적화

max_tokens 파라미터를 최적화하면 할당된 할당량을 효율적으로 사용할 수 있습니다. 이 파라미터에 대한 결정을 알리는 데 도움이 되도록 Amazon Bedrock의 토큰 사용 데이터를 포함하여 서비스에서 지표를 자동으로 수집하는 Amazon CloudWatch를 사용할 수 있습니다. AWS

토큰은 InputTokenCount 및 OutputTokenCount 런타임 지표에 기록됩니다(자세한 지표는 Amazon Bedrock 런타임 지표 섹션을 참조하세요.

CloudWatch 모니터링을 사용하여 max_tokens 파라미터 결정을 알리려면 AWS Management Console에서 다음을 수행합니다.

https://console.aws.amazon.com/cloudwatch Amazon CloudWatch 콘솔에 로그인합니다.
왼쪽 탐색 창에서 대시보드를 선택합니다.
자동 대시보드 탭을 선택합니다.
Bedrock을 선택합니다.
모델별 토큰 수 대시보드에서 확장 아이콘을 선택합니다.
지표의 기간 및 범위 파라미터를 선택하여 최대 사용량을 고려합니다.
Sum이라는 드롭다운 메뉴에서 다른 지표를 선택하여 토큰 사용량을 관찰할 수 있습니다. 이러한 지표를 검토하여 max_tokens 값 설정에 대한 결정을 안내합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

할당량

CountTokens API