기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock에서 토큰을 계산하는 방법
모델 추론을 실행할 때 사용하는 Amazon Bedrock 모델에 따라 처리할 수 있는 토큰 수에 대한 할당량이 있습니다. 토큰 할당량과 관련된 다음 용어를 검토합니다.
용어 | 정의 |
---|---|
InputTokenCount |
모델에 대한 입력으로 제공된 요청의 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. |
OutputTokenCount |
요청에 대한 응답으로 모델에서 생성된 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. |
CacheReadInputTokens |
모델에 의해 재처리되는 대신 캐시에서 성공적으로 검색된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. 프롬프트 캐싱을 사용하지 않는 경우이 값은 0입니다. |
CacheWriteInputTokens |
캐시에 성공적으로 기록된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. 프롬프트 캐싱을 사용하지 않는 경우이 값은 0입니다. |
분당 토큰 수(TPM) | 1분 동안 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다. |
일일 토큰 수(TPD) | 하루에 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다. 기본적으로이 값은 TPM x 24 x 60입니다. 그러나 새로운 AWS 계정 는 할당량을 줄였습니다. |
분당 요청 수(RPM) | 1분 동안 보낼 수 있는 요청 수에 대해 AWS 모델 수준에서가 설정한 할당량입니다. |
max_tokens |
모델이 생성할 수 있는 최대 출력 토큰 양을 설정하기 위해 요청에 제공하는 파라미터입니다. |
축소율 | 입력 및 출력 토큰이 제한 시스템의 토큰 할당량 사용량으로 변환되는 속도입니다. |
다음 모델의 연소율은 출력 토큰의 경우 5배입니다(출력 토큰 1개는 할당량에서 토큰 5개를 사용합니다).
-
Anthropic Claude Opus 4
-
Anthropic Claude Sonnet 4
-
Anthropic Claude 3.7 Sonnet
다른 모든 모델의 경우 연소율은 1:1입니다(출력 토큰 1개는 할당량에서 토큰 1개를 사용함).
토큰 할당량 관리 이해
요청을 하면 토큰이 TPM 및 TPD 할당량에서 공제됩니다. 계산은 다음 단계에서 이루어집니다.
-
요청 시작 시 - RPM 할당량을 초과하지 않았다고 가정하면 다음 합계가 할당량에서 공제됩니다. 할당량을 초과하면 요청이 제한됩니다.
Total input tokens + max_tokens
-
처리 중 - 요청에 사용된 할당량은 생성된 실제 출력 토큰 수를 고려하여 주기적으로 조정됩니다.
-
요청 종료 시 - 요청에 사용된 총 토큰 수는 다음과 같이 계산되며 사용하지 않은 토큰은 할당량에 보충됩니다.
InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
프롬프트 캐싱을 사용하지 않으면
CacheWriteInputTokens
는 0이 됩니다.이 계산에 기여하지CacheReadInputTokens
마십시오.
참고
실제 토큰 사용량에 대해서만 요금이 청구됩니다.
예를 들어 Anthropic Claude Sonnet 4를 사용하고 1,000개의 입력 토큰이 포함된 요청을 전송하고 100개의 토큰에 해당하는 응답을 생성하는 경우:
-
TPM 및 TPD 할당량에서 1,500개의 토큰(1,000 + 100 x 5)이 고갈됩니다.
-
토큰 1,100개에 대해서만 요금이 청구됩니다.
max_tokens 파라미터의 영향 이해
max_tokens
값은 각 요청 시작 시 할당량에서 공제됩니다. 예상보다 일찍 TPM 할당량에 도달하는 경우 완료 크기에 더 근접max_tokens
하도록 줄이세요.
다음 시나리오에서는 출력 토큰의 연소율이 5배인 모델을 사용하여 완료된 요청에서 할당량 공제가 어떻게 작동했는지에 대한 예를 제공합니다.
다음 파라미터를 가정합니다.
-
InputTokenCount: 3,000
-
CacheReadInputTokens: 4,000
-
CacheWriteInputTokens: 1,000
-
OutputTokenCount: 1,000
-
max_tokens: 32,000
다음과 같은 할당량 공제가 이루어집니다.
-
요청 시 초기 공제: 40,000(= 3,000 + 4,000 + 1,000 + 32,000)
-
응답 생성 후 최종 조정 공제: 9,000(= 3,000 + 1,000 + 1,000 x 5)
이 시나리오에서는 max_tokens
파라미터가 너무 높게 설정되었기 때문에 동시 요청을 줄일 수 있습니다. 이렇게 하면 TPM 할당량 용량에 빠르게 도달할 수 있으므로 요청 동시성, 처리량 및 할당량 사용률이 줄어듭니다.
다음 파라미터를 가정합니다.
-
InputTokenCount: 3,000
-
CacheReadInputTokens: 4,000
-
CacheWriteInputTokens: 1,000
-
OutputTokenCount: 1,000
-
max_tokens: 1,250
다음과 같은 할당량 공제가 이루어집니다.
-
요청 시 초기 공제: 9,250(= 3,000 + 4,000 + 1,000 + 1,250)
-
응답 생성 후 최종 조정 공제: 9,000(= 3,000 + 1,000 + 1,000 x 5)
이 시나리오에서는 초기 공제가 최종 조정 공제보다 약간 높기 때문에 max_tokens
파라미터가 최적화되었습니다. 이렇게 하면 요청 동시성, 처리량 및 할당량 사용률을 높이는 데 도움이 되었습니다.
max_tokens 파라미터 최적화
max_tokens
파라미터를 최적화하면 할당된 할당량을 효율적으로 활용할 수 있습니다. 이 파라미터에 대한 결정을 알리는 데 도움이 되도록 Amazon Bedrock의 토큰 사용 데이터를 포함하여 서비스에서 지표를 자동으로 수집하는 Amazon CloudWatch를 사용할 수 있습니다. AWS
토큰은 InputTokenCount
및 OutputTokenCount
런타임 지표에 기록됩니다(자세한 지표는 섹션을 참조하세요Amazon Bedrock 런타임 지표.
CloudWatch 모니터링을 사용하여 max_tokens
파라미터 결정을 알리려면에서 AWS Management Console다음을 수행합니다.
-
https://console.aws.amazon.com/cloudwatch
Amazon CloudWatch 콘솔에 로그인합니다. -
왼쪽 탐색 창에서 대시보드를 선택합니다.
-
자동 대시보드 탭을 선택합니다.
-
Bedrock을 선택합니다.
-
모델별 토큰 수 대시보드에서 확장 아이콘을 선택합니다.
-
최대 사용량을 고려할 지표의 기간 및 범위 파라미터를 선택합니다.
-
Sum이라는 드롭다운 메뉴에서 다른 지표를 선택하여 토큰 사용량을 관찰할 수 있습니다. 이러한 지표를 검토하여
max_tokens
값 설정에 대한 결정을 안내합니다.