

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Bedrock의 할당량
<a name="quotas"></a>

 AWS 계정 에는 Amazon Bedrock에 대한 이전 제한이라고 하는 기본 할당량이 있습니다. Amazon Bedrock의 서비스 할당량을 보려면 다음 중 하나를 수행합니다.
+ [Viewing service quotas](https://docs.aws.amazon.com/servicequotas/latest/userguide/gs-request-quota.html)의 단계에 따라 서비스로 **Amazon Bedrock**을 선택합니다.
+  AWS 일반 참조의 [Amazon Bedrock 서비스 할당량](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock)을 참조하세요.

Amazon Bedrock의 모델 추론은 토큰 사용에 대한 할당량으로 제어됩니다. 일부 모델은 더 높은 속도로 토큰을 사용합니다. 이러한 요금과 토큰 사용을 최적화하는 방법에 대한 자세한 내용은 [Amazon Bedrock에서 토큰을 계산하는 방법](quotas-token-burndown.md) 섹션을 참조하세요.

서비스 성능을 유지하고 Amazon Bedrock을 적절하게 사용할 수 있도록, 계정에 할당된 기본 할당량은 지역적 요인, 결제 기록, 사기성 사용 및/또는 [할당량 증가 요청](quotas-increase.md) 승인에 따라 업데이트될 수 있습니다.

**Topics**
+ [

# Amazon Bedrock에서 토큰을 계산하는 방법
](quotas-token-burndown.md)
+ [

# 추론을 실행하기 전에 토큰을 계산하여 토큰 사용량 모니터링
](count-tokens.md)
+ [

# Amazon Bedrock 할당량 증가 요청
](quotas-increase.md)

# Amazon Bedrock에서 토큰을 계산하는 방법
<a name="quotas-token-burndown"></a>

모델 추론을 실행할 때 사용하는 Amazon Bedrock 모델에 따라 처리할 수 있는 토큰 수에 대한 할당량이 있습니다. 토큰 할당량과 관련된 다음 용어를 검토합니다.


****  

| 용어 | 정의 | 
| --- | --- | 
| InputTokenCount | 모델에 대한 입력으로 제공된 요청의 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. | 
| OutputTokenCount | 요청에 대한 응답으로 모델에서 생성된 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. | 
| CacheReadInputTokens | 모델에 의해 재처리되는 대신 캐시에서 성공적으로 검색된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. [프롬프트 캐싱](prompt-caching.md)을 사용하지 않는 경우 이 값은 0입니다. | 
| CacheWriteInputTokens | 캐시에 성공적으로 기록된 입력 토큰 수를 나타내는 CloudWatch Amazon Bedrock 런타임 지표입니다. [프롬프트 캐싱](prompt-caching.md)을 사용하지 않는 경우 이 값은 0입니다. | 
| 분당 토큰 수(TPM) | 1분 동안 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다. | 
| 일일 토큰 수(TPD) | 하루에 사용할 수 있는 토큰 수(입력 및 출력 모두 포함)에 대해 AWS 모델 수준에서가 설정한 할당량입니다. 기본적으로 이 값은 TPM x 24 x 60입니다. 그러나 새로운 AWS 계정 는 할당량을 줄였습니다. | 
| 분당 요청 수(RPM) | 1분 동안 보낼 수 있는 요청 수에 대해 AWS 모델 수준에서가 설정한 할당량입니다. | 
| max\$1tokens | 모델이 생성할 수 있는 최대 출력 토큰 양을 설정하기 위해 요청에 제공하는 파라미터입니다. | 
| 소진율 | 입력 및 출력 토큰이 스로틀링 시스템의 토큰 할당량 사용량으로 변환되는 속도입니다. | 

Anthropic Claude 모델 버전 3.7 이상의 연소율은 **출력 토큰의 경우 5배**입니다(출력 토큰 1개는 할당량에서 토큰 5개를 사용합니다).

다른 모든 모델의 경우 연소율은 **1:1**입니다(출력 토큰 1개는 할당량에서 토큰 1개를 사용함).

**Topics**
+ [

## 토큰 할당량 관리 이해
](#quotas-token-burndown-management)
+ [

## max\$1tokens 파라미터의 영향 이해
](#quotas-token-burndown-max-tokens)
+ [

## max\$1tokens 파라미터 최적화
](#quotas-token-burndown-max-tokens-optimize)

## 토큰 할당량 관리 이해
<a name="quotas-token-burndown-management"></a>

요청을 하면 토큰이 TPM 및 TPD 할당량에서 공제됩니다. 계산은 다음 단계에서 이루어집니다.
+ **요청 시작 시** - RPM 할당량을 초과하지 않았다고 가정하면 다음 합계가 할당량에서 공제됩니다. 할당량을 초과하면 요청이 제한됩니다.

  ```
  Total input tokens + max_tokens
  ```
+ **처리 중** - 요청에 사용된 할당량은 생성된 실제 출력 토큰 수를 고려하여 주기적으로 조정됩니다.
+ **요청 종료 시** - 요청에 사용된 총 토큰 수는 다음과 같이 계산되며 사용하지 않은 토큰은 할당량에 보충됩니다.

  ```
  InputTokenCount + CacheWriteInputTokens + (OutputTokenCount x burndown rate)
  ```

  [프롬프트 캐싱](prompt-caching.md)을 사용하지 않으면 `CacheWriteInputTokens`는 0이 됩니다. `CacheReadInputTokens`는 이 계산에 기여하지 않습니다.

**참고**  
실제 토큰 사용량에 대해서만 요금이 청구됩니다.  
예를 들어 Anthropic Claude Sonnet 4를 사용하고 1,000개의 입력 토큰이 포함된 요청을 전송하고 100개의 토큰에 해당하는 응답을 생성하는 경우:  
TPM 및 TPD 할당량에서 **1,500개의 토큰**(1,000 \$1 100 x 5)이 고갈됩니다.
**토큰 1,100개**에 대해서만 요금이 청구됩니다.

## max\$1tokens 파라미터의 영향 이해
<a name="quotas-token-burndown-max-tokens"></a>

`max_tokens` 값은 각 요청 시작 시 할당량에서 공제됩니다. 예상보다 일찍 TPM 할당량에 도달하는 경우 완료 크기에 더 근접하도록 `max_tokens`를 줄이세요.

다음 시나리오에서는 출력 토큰의 소진율이 5배인 모델을 사용하여 완료된 요청에서 할당량 공제가 어떻게 작동했는지에 대한 예를 제공합니다.

### 시나리오 1: 높은 max\$1tokens 값
<a name="quotas-token-burndown-max-tokens-too-high"></a>

다음 파라미터를 가정합니다.
+ **InputTokenCount:** 3,000
+ **CacheReadInputTokens:** 4,000
+ **CacheWriteInputTokens:** 1,000
+ **OutputTokenCount:** 1,000
+ **max\$1tokens:** 32,000

다음과 같은 할당량 공제가 이루어집니다.
+ **요청 시 초기 공제:** 40,000(= 3,000 \$1 4,000 \$1 1,000 \$1 32,000)
+ **응답 생성 후 최종 조정 공제:** 9,000(= 3,000 \$1 1,000 \$1 1,000 x 5)

이 시나리오에서는 `max_tokens` 파라미터가 너무 높게 설정되었기 때문에 동시 요청을 줄일 수 있습니다. 이렇게 하면 TPM 할당량 용량에 빠르게 도달할 수 있으므로 요청 동시성, 처리량 및 할당량 사용률이 줄어듭니다.

### 시나리오 2: 최적화된 max\$1tokens 값
<a name="quotas-token-burndown-max-tokens-optimized"></a>

다음 파라미터를 가정합니다.
+ **InputTokenCount:** 3,000
+ **CacheReadInputTokens:** 4,000
+ **CacheWriteInputTokens:** 1,000
+ **OutputTokenCount:** 1,000
+ **max\$1tokens:** 1,250

다음과 같은 할당량 공제가 이루어집니다.
+ **요청 시 초기 공제:** 9,250(= 3,000 \$1 4,000 \$1 1,000 \$1 1,250)
+ **응답 생성 후 최종 조정 공제:** 9,000(= 3,000 \$1 1,000 \$1 1,000 x 5)

이 시나리오에서는 초기 공제가 최종 조정 공제보다 약간 높기 때문에 `max_tokens` 파라미터가 최적화되었습니다. 이렇게 하면 요청 동시성, 처리량 및 할당량 사용률을 높이는 데 도움이 되었습니다.

## max\$1tokens 파라미터 최적화
<a name="quotas-token-burndown-max-tokens-optimize"></a>

`max_tokens` 파라미터를 최적화하면 할당된 할당량을 효율적으로 활용할 수 있습니다. 이 파라미터에 대한 결정을 알리는 데 도움이 되도록 Amazon Bedrock의 토큰 사용 데이터를 포함하여 서비스에서 지표를 자동으로 수집하는 Amazon CloudWatch를 사용할 수 있습니다. AWS 

토큰은 `InputTokenCount` 및 `OutputTokenCount` 런타임 지표에 기록됩니다(자세한 지표는 [Amazon Bedrock 런타임 지표](monitoring.md#runtime-cloudwatch-metrics) 섹션을 참조하세요.

CloudWatch 모니터링을 사용하여 `max_tokens` 파라미터 결정을 알리려면 AWS Management Console에서 다음을 수행합니다.

1. [https://console.aws.amazon.com/cloudwatch](https://console.aws.amazon.com/cloudwatch) Amazon CloudWatch 콘솔에 로그인합니다.

1. 왼쪽 탐색 창에서 **대시보드**를 선택합니다.

1. **자동 대시보드** 탭을 선택합니다.

1. **Bedrock**을 선택합니다.

1. **모델별 토큰 수** 대시보드에서 확장 아이콘을 선택합니다.

1. 지표의 기간 및 범위 파라미터를 선택하여 최대 사용량을 고려합니다.

1. **Sum**이라는 드롭다운 메뉴에서 다른 지표를 선택하여 토큰 사용량을 관찰할 수 있습니다. 이러한 지표를 검토하여 `max_tokens` 값 설정에 대한 결정을 안내합니다.

# 추론을 실행하기 전에 토큰을 계산하여 토큰 사용량 모니터링
<a name="count-tokens"></a>

모델 추론을 실행하면 입력에서 전송하는 토큰 수가 요청 비용과 분당 및 하루에 사용할 수 있는 토큰 할당량에 영향을 미칩니다. [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html) API를 사용하면 추론 요청에서 동일한 입력이 모델에 전송된 경우 사용할 토큰 수를 반환하여 파운데이션 모델에 요청을 보내기 전에 토큰 사용량을 추정할 수 있습니다.

**참고**  
[CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html) API를 사용해도 요금이 발생하지 않습니다.

토큰 계산은 모델별로 다릅니다. 모델마다 토큰화 전략이 다르기 때문입니다. 이 작업에서 반환되는 토큰 수는 추론을 실행하기 위해 동일한 입력이 모델에 전송된 경우 청구되는 토큰 수와 일치합니다.

`CountTokens` API를 사용하여 다음을 수행할 수 있습니다.
+ 추론 요청을 보내기 전에 비용을 추정합니다.
+ 토큰 제한에 맞게 프롬프트를 최적화합니다.
+ 애플리케이션에서 토큰 사용을 계획합니다.

**Topics**
+ [

## 토큰 계산에 지원되는 모델 및 리전
](#count-tokens-supported)
+ [

## 요청의 토큰 수 계산
](#count-tokens-use)
+ [

## 예제 시도
](#count-tokens-example)

## 토큰 계산에 지원되는 모델 및 리전
<a name="count-tokens-supported"></a>

다음 표에는 토큰 계산에 대한 파운데이션 모델 지원이 나와 있습니다.


| 제공업체 | 모델 | 모델 ID | 단일 리전 모델 지원 | 
| --- | --- | --- | --- | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |  us-west-2  | 
| Anthropic | claude-3.5-sonnet | anthropic.claude-3-5-sonnet-20240620-v1:0 |  ap-northeast-1 ap-southeast-1 eu-central-1 eu-central-2 us-east-1 us-west-2  | 
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v2:0 |  ap-southeast-2 us-west-2  | 
| Anthropic | Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v1:0 |  eu-west-2  | 
| Anthropic | Claude Opus 4 | anthropic.claude-opus-4-20250514-v1:0 |  | 
| Anthropic | Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 |  | 

## 요청의 토큰 수 계산
<a name="count-tokens-use"></a>

추론 요청의 입력 토큰 수를 계산하려면 [Amazon Bedrock 런타임 엔드포인트](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#br-rt)를 사용하여 [CountTokens](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_CountTokens.html) 요청을 보냅니다. 헤더에 모델을 지정하고 `body` 필드에 대한 토큰을 계산할 입력을 지정합니다. `body` 필드 값은 [InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html) 또는 [Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) 요청에 대한 입력 토큰을 계산하는지 여부에 따라 달라집니다.
+ `InvokeModel` 요청의 경우 `body`의 형식은 지정한 모델에 따라 형식이 달라지는 JSON 객체를 나타내는 문자열입니다.
+ `Converse` 요청의 경우 `body`의 형식은 대화에 포함된 `messages` 및 `system` 프롬프트를 지정하는 JSON 객체입니다.

## 예제 시도
<a name="count-tokens-example"></a>

이 섹션의 예제는 Anthropic Claude 3 Haiku를 사용하여 `InvokeModel` 및 `Converse` 요청에 대한 토큰을 계산할 수 있도록 합니다.

**사전 조건**
+ 를 다운로드했으며 자격 증명AWS SDK for Python (Boto3)과 기본 AWS리전이 자동으로 인식되도록 구성이 설정되어 있습니다.
+ IAM 자격 증명에는 다음 작업에 대한 권한이 있습니다(자세한 내용은 [Amazon Bedrock에 사용되는 작업, 리소스 및 조건 키](https://docs.aws.amazon.com/service-authorization/latest/reference/list_amazonbedrock.html) 참조).
  + bedrock:CountTokens – `CountTokens` 사용을 허용합니다.
  + bedrock:InvokeModel – `InvokeModel` 및 `Converse` 사용을 허용합니다. 최소한 *arn:\$1\$1Partition\$1:bedrock:\$1\$1Region\$1::foundation-model/anthropic.claude-3-haiku-20240307-v1:0*으로 범위를 지정해야 합니다.

[InvokeModel](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModel.html) 요청에 대한 토큰 수 계산을 시도하려면 다음 Python 코드를 실행합니다.

```
import boto3
import json

bedrock_runtime = boto3.client("bedrock-runtime")

input_to_count = json.dumps({
    "anthropic_version": "bedrock-2023-05-31",
    "max_tokens": 500,
    "messages": [
        {
            "role": "user",
            "content": "What is the capital of France?"
        }
    ]
})

response = bedrock_runtime.count_tokens(
    modelId="anthropic.claude-3-5-haiku-20241022-v1:0",
    input={
        "invokeModel": {
            "body": input_to_count
        }
    }
)

print(response["inputTokens"])
```

[Converse](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_Converse.html) 요청에 대한 토큰 수 계산을 시도하려면 다음 Python 코드를 실행합니다.

```
import boto3
import json 

bedrock_runtime = boto3.client("bedrock-runtime")

input_to_count = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "text": "What is the capital of France?"
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "The capital of France is Paris."
                }
            ]
        },
        {
            "role": "user",
            "content": [
                {
                    "text": "What is its population?"
                }
            ]
        }
    ],
    "system": [
        {
            "text": "You're an expert in geography."
        }
    ]
}

response = bedrock_runtime.count_tokens(
    modelId="anthropic.claude-3-5-haiku-20241022-v1:0",
    input={
        "converse": input_to_count
    }
)

print(response["inputTokens"])
```

# Amazon Bedrock 할당량 증가 요청
<a name="quotas-increase"></a>

계정에 대한 할당량 증가를 요청하는 단계는 [Amazon Bedrock 서비스 할당량](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock)에 있는 할당량 테이블의 **조정 가능** 열에 있는 값에 따라 달라집니다.
+ 할당량이 **예**로 표시된 경우 Service Quotas 사용 설명서의 [할당량 증가 요청](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) 단계에 따라 할당량을 조정할 수 있습니다.
+ 모든 모델에 대해 다음 할당량에 대한 증가를 함께 요청할 수 없습니다.
  + *\$1\$1model\$1*에 대한 분당 교차 리전 InvokeModel 토큰
  + *\$1\$1model\$1*에 대한 분당 교차 리전 InvokeModel 요청
  + *\$1\$1model\$1*에 대한 분당 온디맨드 InvokeModel 토큰
  + *\$1\$1model\$1*에 대한 분당 온디맨드 InvokeModel 요청
  + *\$1\$1model\$1*에 대한 일일 모델 간접 호출 최대 토큰

  이러한 할당량의 조합에 대한 증가를 요청하려면 Service Quotas 사용 설명서의 [할당량 증가 요청](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html)의 단계에 따라 ***\$1\$1model\$1* 할당량에 대한 분당 교차 리전 InvokeModel 토큰** 증가를 요청하세요. 이렇게 하면 지원 팀이 연락하여 다른 4가지 할당량을 늘릴 수 있는 옵션도 제공합니다.
**참고**  
수요가 압도적인 관계로, 기존에 할당된 할당량을 소비하는 트래픽을 생성하는 고객에게 우선 순위가 부여됩니다. 이 조건을 충족하지 않으면 요청이 거부될 수 있습니다.