

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Endpoints e cotas de Amazon Bedrock
<a name="bedrock"></a>

Para se conectar programaticamente a um AWS serviço, você usa um endpoint. AWS os serviços oferecem os seguintes tipos de endpoints em algumas ou em todas as AWS regiões às quais o serviço oferece suporte: endpoints IPv4, endpoints de pilha dupla e endpoints FIPS. Alguns serviços fornecem endpoints globais. Para obter mais informações, consulte [AWS endpoints de serviço](rande.md).

As cotas de serviço, também chamadas de limites, são o número máximo de recursos ou operações de serviço da sua AWS conta. Para obter mais informações, consulte [AWS service quotas](aws_service_limits.md).

A seguir estão os endpoints de serviço e as cotas de serviço para este serviço.

## Endpoints de serviço do Amazon Bedrock
<a name="bedrock_region"></a>

### APIs do ambiente de gerenciamento do Amazon Bedrock
<a name="br-cp"></a>

A tabela a seguir fornece uma lista de Region-specific endpoints que o Amazon Bedrock suporta para gerenciar, treinar e implantar modelos. Use esses endpoints para [operações de API do Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_Operations_Amazon_Bedrock.html).


| Nome da região | Região | Endpoint | Protocolo | 
| --- | --- | --- | --- | 
| Leste dos EUA (Ohio) | us-east-2 |  bedrock.us-east-2.amazonaws.com <br /> bedrock-fips.us-east-2.amazonaws.com  | HTTPS<br />HTTPS | 
| Leste dos EUA (Norte da Virgínia) | us-east-1 |  bedrock.us-east-1.amazonaws.com <br /> bedrock-fips.us-east-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Oeste dos EUA (N. da Califórnia) | us-west-1 |  bedrock.us-west-1.amazonaws.com <br /> bedrock-fips.us-west-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Oeste dos EUA (Oregon) | us-west-2 |  bedrock.us-west-2.amazonaws.com <br /> bedrock-fips.us-west-2.amazonaws.com  | HTTPS<br />HTTPS | 
| África (Cidade do Cabo) | af-south-1 |  bedrock.af-south-1.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Hyderabad) | ap-south-2 |  bedrock.ap-south-2.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Jacarta) | ap-southeast-3 |  bedrock.ap-southeast-3.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Malásia) | ap-southeast-5 |  bedrock.ap-southeast-5.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Melbourne) | ap-southeast-4 |  bedrock.ap-southeast-4.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Mumbai) | ap-south-1 |  bedrock.ap-south-1.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Nova Zelândia) | ap-southeast-6 |  bedrock.ap-southeast-6.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Osaka) | ap-northeast-3 |  bedrock.ap-northeast-3.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Seul) | ap-northeast-2 |  bedrock.ap-northeast-2.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Singapura) | ap-southeast-1 |  bedrock.ap-southeast-1.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Sydney) | ap-southeast-2 |  bedrock.ap-southeast-2.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Taipei) | ap-east-2 |  bedrock.ap-east-2.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Tailândia) | ap-southeast-7 |  bedrock.ap-southeast-7.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Tóquio) | ap-northeast-1 |  bedrock.ap-northeast-1.amazonaws.com  | HTTPS | 
| Canadá (Central) | ca-central-1 |  bedrock.ca-central-1.amazonaws.com <br /> bedrock-fips.ca-central-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Oeste do Canadá (Calgary) | ca-west-1 |  bedrock.ca-west-1.amazonaws.com <br /> bedrock-fips.ca-west-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Europa (Frankfurt) | eu-central-1 |  bedrock.eu-central-1.amazonaws.com  | HTTPS | 
| Europa (Irlanda) | eu-west-1 |  bedrock.eu-west-1.amazonaws.com  | HTTPS | 
| Europa (Londres) | eu-west-2 |  bedrock.eu-west-2.amazonaws.com  | HTTPS | 
| Europa (Milão) | eu-south-1 |  bedrock.eu-south-1.amazonaws.com  | HTTPS | 
| Europa (Paris) | eu-west-3 |  bedrock.eu-west-3.amazonaws.com  | HTTPS | 
| Europa (Espanha) | eu-south-2 |  bedrock.eu-south-2.amazonaws.com  | HTTPS | 
| Europa (Estocolmo) | eu-north-1 |  bedrock.eu-north-1.amazonaws.com  | HTTPS | 
| Europa (Zurique) | eu-central-2 |  bedrock.eu-central-2.amazonaws.com  | HTTPS | 
| Israel (Tel Aviv) | il-central-1 |  bedrock.il-central-1.amazonaws.com  | HTTPS | 
| México (Central) | mx-central-1 |  bedrock.mx-central-1.amazonaws.com  | HTTPS | 
| Oriente Médio (Barém) | me-south-1 |  bedrock.me-south-1.amazonaws.com  | HTTPS | 
| Oriente Médio (Emirados Árabes Unidos) | me-central-1 |  bedrock.me-central-1.amazonaws.com  | HTTPS | 
| América do Sul (São Paulo) | sa-east-1 |  bedrock.sa-east-1.amazonaws.com  | HTTPS | 
|  AWS GovCloud (US-East) | us-gov-east-1 |  bedrock.us-gov-east-1.amazonaws.com <br /> bedrock-fips.us-gov-east-1.amazonaws.com  | HTTPS<br />HTTPS | 
|  AWS GovCloud (US-West) | us-gov-west-1 |  bedrock.us-gov-west-1.amazonaws.com <br /> bedrock-fips.us-gov-west-1.amazonaws.com  | HTTPS<br />HTTPS | 

### APIs de runtime do Amazon Bedrock
<a name="br-rt"></a>

A tabela a seguir fornece uma lista de Region-specific endpoints que o Amazon Bedrock suporta para fazer solicitações de inferência para modelos hospedados no Amazon Bedrock. Use esses endpoints para [operações de APIs runtime do Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_Operations_Amazon_Bedrock_Runtime.html).


| Nome da região | Região | Endpoint | Protocolo | 
| --- | --- | --- | --- | 
| Leste dos EUA (Ohio) | us-east-2 |  bedrock-runtime.us-east-2.amazonaws.com <br /> bedrock-runtime-fips.us-east-2.amazonaws.com  | HTTPS<br />HTTPS | 
| Leste dos EUA (Norte da Virgínia) | us-east-1 |  bedrock-runtime.us-east-1.amazonaws.com <br /> bedrock-runtime-fips.us-east-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Oeste dos EUA (Oregon) | us-west-2 |  bedrock-runtime.us-west-2.amazonaws.com <br /> bedrock-runtime-fips.us-west-2.amazonaws.com  | HTTPS<br />HTTPS | 
| Ásia-Pacífico (Hyderabad) | ap-south-2 |  bedrock-runtime.ap-south-2.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Mumbai) | ap-south-1 |  bedrock-runtime.ap-south-1.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Osaka) | ap-northeast-3 |  bedrock-runtime.ap-northeast-3.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Seul) | ap-northeast-2 |  bedrock-runtime.ap-northeast-2.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Singapura) | ap-southeast-1 |  bedrock-runtime.ap-southeast-1.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Sydney) | ap-southeast-2 |  bedrock-runtime.ap-southeast-2.amazonaws.com  | HTTPS | 
| Ásia-Pacífico (Tóquio) | ap-northeast-1 |  bedrock-runtime.ap-northeast-1.amazonaws.com  | HTTPS | 
| Canadá (Central) | ca-central-1 |  bedrock-runtime.ca-central-1.amazonaws.com <br /> bedrock-runtime-fips.ca-central-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Europa (Frankfurt) | eu-central-1 |  bedrock-runtime.eu-central-1.amazonaws.com  | HTTPS | 
| Europa (Irlanda) | eu-west-1 |  bedrock-runtime.eu-west-1.amazonaws.com  | HTTPS | 
| Europa (Londres) | eu-west-2 |  bedrock-runtime.eu-west-2.amazonaws.com  | HTTPS | 
| Europa (Milão) | eu-south-1 |  bedrock-runtime.eu-south-1.amazonaws.com  | HTTPS | 
| Europa (Paris) | eu-west-3 |  bedrock-runtime.eu-west-3.amazonaws.com  | HTTPS | 
| Europa (Espanha) | eu-south-2 |  bedrock-runtime.eu-south-2.amazonaws.com  | HTTPS | 
| Europa (Estocolmo) | eu-north-1 |  bedrock-runtime.eu-north-1.amazonaws.com  | HTTPS | 
| Europa (Zurique) | eu-central-2 |  bedrock-runtime.eu-central-2.amazonaws.com  | HTTPS | 
| América do Sul (São Paulo) | sa-east-1 |  bedrock-runtime.sa-east-1.amazonaws.com  | HTTPS | 
|  AWS GovCloud (US-East) | us-gov-east-1 |  bedrock-runtime.us-gov-east-1.amazonaws.com <br /> bedrock-runtime-fips.us-gov-east-1.amazonaws.com  | HTTPS<br />HTTPS | 
|  AWS GovCloud (US-West) | us-gov-west-1 |  bedrock-runtime.us-gov-west-1.amazonaws.com <br /> bedrock-runtime-fips.us-gov-west-1.amazonaws.com  | HTTPS<br />HTTPS | 

### APIs de tempo de compilação da funcionalidade Agentes do Amazon Bedrock
<a name="bra-bt"></a>

A tabela a seguir fornece uma lista de Region-specific endpoints que o Agents for Amazon Bedrock suporta para criar e gerenciar agentes e bases de conhecimento. Use esses endpoints para [operações de API do Agentes para Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_Operations_Agents_for_Amazon_Bedrock.html).



- **Leste dos EUA (Norte da Virgínia)**
  - **Região:** us-east-1
  - **Endpoint:** bedrock-agent.us-east-1.amazonaws.com / **Protocolo:** HTTPS
  - **Endpoint:** bedrock-agent-fips.us-east-1.amazonaws.com / **Protocolo:** HTTPS

- **Oeste dos EUA (Oregon)**
  - **Região:** us-west-2
  - **Endpoint:** bedrock-agent.us-west-2.amazonaws.com / **Protocolo:** HTTPS
  - **Endpoint:** bedrock-agent-fips.us-west-2.amazonaws.com / **Protocolo:** HTTPS

- **Ásia-Pacífico (Singapura)**
  - **Região:** ap-southeast-1
  - **Endpoint:** bedrock-agent.ap-southeast-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Sydney)**
  - **Região:** ap-southeast-2
  - **Endpoint:** bedrock-agent.ap-southeast-2.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Tóquio)**
  - **Região:** ap-northeast-1
  - **Endpoint:** bedrock-agent.ap-northeast-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Seul)**
  - **Região:** ap-northeast-2
  - **Endpoint:** bedrock-agent.ap-northeast-2.amazonaws.com
  - **Protocolo:** HTTPS

- **Canadá (Central)**
  - **Região:** ca-central-1
  - **Endpoint:** bedrock-agent.ca-central-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Frankfurt)**
  - **Região:** eu-central-1
  - **Endpoint:** bedrock-agent.eu-central-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Irlanda)**
  - **Região:** eu-west-1
  - **Endpoint:** bedrock-agent.eu-west-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Londres)**
  - **Região:** eu-west-2
  - **Endpoint:** bedrock-agent.eu-west-2.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Paris)**
  - **Região:** eu-west-3
  - **Endpoint:** bedrock-agent.eu-west-3.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Mumbai)**
  - **Região:** ap-south-1
  - **Endpoint:** bedrock-agent.ap-south-1.amazonaws.com
  - **Protocolo:** HTTPS

- **América do Sul (São Paulo)**
  - **Região:** sa-east-1
  - **Endpoint:** bedrock-agent.sa-east-1.amazonaws.com
  - **Protocolo:** HTTPS



### APIs de runtime da funcionalidade Agentes do Amazon Bedrock
<a name="bra-rt"></a>

A tabela a seguir fornece uma lista de Region-specific endpoints que o Agents for Amazon Bedrock suporta para invocar agentes e consultar bases de conhecimento. Use esses endpoints para [operações de APIs de runtime do Agentes para Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_Operations_Agents_for_Amazon_Bedrock_Runtime.html).



- **Leste dos EUA (Norte da Virgínia)**
  - **Região:** us-east-1
  - **Endpoint:** bedrock-agent-runtime.us-east-1.amazonaws.com / **Protocolo:** HTTPS
  - **Endpoint:** bedrock-agent-runtime-fips.us-east-1.amazonaws.com / **Protocolo:** HTTPS

- **Oeste dos EUA (Oregon)**
  - **Região:** us-west-2
  - **Endpoint:** bedrock-agent-runtime.us-west-2.amazonaws.com / **Protocolo:** HTTPS
  - **Endpoint:** bedrock-agent-runtime-fips.us-west-2.amazonaws.com / **Protocolo:** HTTPS

- **Ásia-Pacífico (Singapura)**
  - **Região:** ap-southeast-1
  - **Endpoint:** bedrock-agent-runtime.ap-southeast-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Sydney)**
  - **Região:** ap-southeast-2
  - **Endpoint:** bedrock-agent-runtime.ap-southeast-2.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Tóquio)**
  - **Região:** ap-northeast-1
  - **Endpoint:** bedrock-agent-runtime.ap-northeast-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Seul)**
  - **Região:** ap-northeast-2
  - **Endpoint:** bedrock-agent-runtime.ap-northeast-2.amazonaws.com
  - **Protocolo:** HTTPS

- **Canadá (Central)**
  - **Região:** ca-central-1
  - **Endpoint:** bedrock-agent-runtime.ca-central-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Frankfurt)**
  - **Região:** eu-central-1
  - **Endpoint:** bedrock-agent-runtime.eu-central-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Paris)**
  - **Região:** eu-west-3
  - **Endpoint:** bedrock-agent-runtime.eu-west-3.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Irlanda)**
  - **Região:** eu-west-1
  - **Endpoint:** bedrock-agent-runtime.eu-west-1.amazonaws.com
  - **Protocolo:** HTTPS

- **Europa (Londres)**
  - **Região:** eu-west-2
  - **Endpoint:** bedrock-agent-runtime.eu-west-2.amazonaws.com
  - **Protocolo:** HTTPS

- **Ásia-Pacífico (Mumbai)**
  - **Região:** ap-south-1
  - **Endpoint:** bedrock-agent-runtime.ap-south-1.amazonaws.com
  - **Protocolo:** HTTPS

- **América do Sul (São Paulo)**
  - **Região:** sa-east-1
  - **Endpoint:** bedrock-agent-runtime.sa-east-1.amazonaws.com
  - **Protocolo:** HTTPS



### APIs de automação de dados do Amazon Bedrock
<a name="brbda-bt"></a>

A tabela a seguir fornece uma lista de Region-specific endpoints compatíveis com o Data Automation for Amazon Bedrock. Os endpoints que usam a palavra `runtime` invocam esquemas e projetos para extrair informações de arquivos. Use esses endpoints para [operações de APIs de runtime de automação de dados do Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_Operations_Runtime_for_Amazon_Bedrock_Data_Automation.html). Pde extremidade sem `runtime` são usados para criar esquemas e projetos para fornecer orientação de extração. Use esses endpoints para [operações de buildtime da API de automação de dados do Amazon Bedrock](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_Operations_Data_Automation_for_Amazon_Bedrock.html)


| Nome da região | Região | Endpoint | Protocolo | 
| --- | --- | --- | --- | 
| Leste dos EUA (Ohio) | us-east-2 |  bedrock-data-automation.us-east-2.amazonaws.com <br /> bedrock-data-automation-runtime.us-east-2.amazonaws.com <br /> bedrock-data-automation-fips.us-east-2.amazonaws.com <br /> bedrock-data-automation-runtime-fips.us-east-2.amazonaws.com  | HTTPS<br />HTTPS<br />HTTPS<br />HTTPS | 
| Leste dos EUA (Norte da Virgínia) | us-east-1 |  bedrock-data-automation.us-east-1.amazonaws.com <br /> bedrock-data-automation-runtime.us-east-1.api.aws <br /> bedrock-data-automation-runtime.us-east-1.amazonaws.com <br /> bedrock-data-automation.us-east-1.api.aws <br /> bedrock-data-automation-fips.us-east-1.amazonaws.com <br /> bedrock-data-automation-runtime-fips.us-east-1.api.aws <br /> bedrock-data-automation-runtime-fips.us-east-1.amazonaws.com <br /> bedrock-data-automation-fips.us-east-1.api.aws  | HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS | 
| Oeste dos EUA (Oregon) | us-west-2 |  bedrock-data-automation.us-west-2.amazonaws.com <br /> bedrock-data-automation-runtime.us-west-2.api.aws <br /> bedrock-data-automation-runtime.us-west-2.amazonaws.com <br /> bedrock-data-automation.us-west-2.api.aws <br /> bedrock-data-automation-fips.us-west-2.amazonaws.com <br /> bedrock-data-automation-runtime-fips.us-west-2.api.aws <br /> bedrock-data-automation-runtime-fips.us-west-2.amazonaws.com <br /> bedrock-data-automation-fips.us-west-2.api.aws  | HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS<br />HTTPS | 
| Ásia-Pacífico (Mumbai) | ap-south-1 |  bedrock-data-automation.ap-south-1.amazonaws.com <br /> bedrock-data-automation-runtime.ap-south-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Ásia-Pacífico (Sydney) | ap-southeast-2 |  bedrock-data-automation.ap-southeast-2.amazonaws.com <br /> bedrock-data-automation-runtime.ap-southeast-2.amazonaws.com  | HTTPS<br />HTTPS | 
| Ásia-Pacífico (Tóquio) | ap-northeast-1 |  bedrock-data-automation.ap-northeast-1.amazonaws.com <br /> bedrock-data-automation-runtime.ap-northeast-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Canadá (Central) | ca-central-1 |  bedrock-data-automation.ca-central-1.amazonaws.com <br /> bedrock-data-automation-runtime.ca-central-1.amazonaws.com <br /> bedrock-data-automation-fips.ca-central-1.amazonaws.com <br /> bedrock-data-automation-runtime-fips.ca-central-1.amazonaws.com  | HTTPS<br />HTTPS<br />HTTPS<br />HTTPS | 
| Europa (Frankfurt) | eu-central-1 |  bedrock-data-automation.eu-central-1.amazonaws.com <br /> bedrock-data-automation-runtime.eu-central-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Europa (Irlanda) | eu-west-1 |  bedrock-data-automation.eu-west-1.amazonaws.com <br /> bedrock-data-automation-runtime.eu-west-1.amazonaws.com  | HTTPS<br />HTTPS | 
| Europa (Londres) | eu-west-2 |  bedrock-data-automation.eu-west-2.amazonaws.com <br /> bedrock-data-automation-runtime.eu-west-2.amazonaws.com  | HTTPS<br />HTTPS | 
| Europa (Espanha) | eu-south-2 |  bedrock-data-automation.eu-south-2.amazonaws.com <br /> bedrock-data-automation-runtime.eu-south-2.amazonaws.com  | HTTPS<br />HTTPS | 
|  AWS GovCloud (US-West) | us-gov-west-1 |  bedrock-data-automation.us-gov-west-1.amazonaws.com <br /> bedrock-data-automation-runtime.us-gov-west-1.amazonaws.com <br /> bedrock-data-automation-fips.us-gov-west-1.amazonaws.com <br /> bedrock-data-automation-runtime-fips.us-gov-west-1.amazonaws.com  | HTTPS<br />HTTPS<br />HTTPS<br />HTTPS | 

## Amazon Bedrock Service Quotas
<a name="limits_bedrock"></a>

**dica**  
Como o Amazon Bedrock tem um grande número de cotas, recomendamos que você visualize as Service Quotas usando o console em vez de usar a tabela abaixo. Abra as [cotas do Amazon Bedrock](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas). Use o campo de pesquisa para encontrar cotas específicas. Use o ícone de engrenagem para controlar quantas cotas são exibidas em uma página.


| Nome | Padrão | Ajustável | Description | 
| --- | --- | --- | --- | 
| (Otimização avançada de prompts) Trabalhos ativos por conta | Cada região compatível: 20 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B46DD052)  | Número máximo de trabalhos ativos de Otimização avançada de prompts (APO) por conta. | 
| (Otimização avançada de prompts) Trabalhos inativos por conta | Cada região compatível: 5.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0B66D421)  | Número máximo de trabalhos inativos de Otimização avançada de prompts (APO) por conta. | 
| (Raciocínio automatizado) Anotações na política | Cada região com suporte: 10 | Não | Número máximo de anotações em uma política de raciocínio automatizado. | 
| (Raciocínio automatizado) CancelAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7334E629)  | O número máximo de solicitações de CancelAutomatedReasoningPolicyBuildWorkflow API por segundo. | 
| (Raciocínio automatizado) Compilações simultâneas por política | Cada região compatível: 2 | Não | Número máximo de compilações simultâneas por política de raciocínio automatizado. | 
| (Raciocínio automatizado) Criação de políticas simultâneas por conta | Cada região compatível: 5 | Não | Número máximo de compilações simultâneas de políticas de raciocínio automatizado em uma conta. | 
| (Raciocínio automatizado) CreateAutomatedReasoningPolicy solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6326A422)  | O número máximo de solicitações de CreateAutomatedReasoningPolicy API por segundo. | 
| (Raciocínio automatizado) CreateAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F5ACA0A6)  | O número máximo de solicitações de CreateAutomatedReasoningPolicyTestCase API por segundo. | 
| (Raciocínio automatizado) CreateAutomatedReasoningPolicyVersion solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C5913DD6)  | O número máximo de solicitações de CreateAutomatedReasoningPolicyVersion API por segundo. | 
| (Raciocínio automatizado) DeleteAutomatedReasoningPolicy solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-51CDA0E1)  | O número máximo de solicitações de DeleteAutomatedReasoningPolicy API por segundo. | 
| (Raciocínio automatizado) DeleteAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F20FBC17)  | O número máximo de solicitações de DeleteAutomatedReasoningPolicyBuildWorkflow API por segundo. | 
| (Raciocínio automatizado) DeleteAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-345B029F)  | O número máximo de solicitações de DeleteAutomatedReasoningPolicyTestCase API por segundo. | 
| (Raciocínio automatizado) ExportAutomatedReasoningPolicyVersion solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9B17C979)  | O número máximo de solicitações de ExportAutomatedReasoningPolicyVersion API por segundo. | 
| (Raciocínio automatizado) GetAutomatedReasoningPolicy solicitações por segundo | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4DBDD5C9)  | O número máximo de solicitações de GetAutomatedReasoningPolicy API por segundo. | 
| (Raciocínio automatizado) GetAutomatedReasoningPolicyAnnotations solicitações por segundo | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0CB120A9)  | O número máximo de solicitações de GetAutomatedReasoningPolicyAnnotations API por segundo. | 
| (Raciocínio automatizado) GetAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-749C38BD)  | O número máximo de solicitações de GetAutomatedReasoningPolicyBuildWorkflow API por segundo. | 
| (Raciocínio automatizado) GetAutomatedReasoningPolicyBuildWorkflowResultAssets solicitações por segundo | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9B9B20DB)  | O número máximo de solicitações de GetAutomatedReasoningPolicyBuildWorkflowResultAssets API por segundo. | 
| (Raciocínio automatizado) GetAutomatedReasoningPolicyNextScenario solicitações por segundo | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EAD257E4)  | O número máximo de solicitações de GetAutomatedReasoningPolicyNextScenario API por segundo. | 
| (Raciocínio automatizado) GetAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7D9F04A9)  | O número máximo de solicitações de GetAutomatedReasoningPolicyTestCase API por segundo. | 
| (Raciocínio automatizado) GetAutomatedReasoningPolicyTestResult solicitações por segundo | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8A686BB7)  | O número máximo de solicitações de GetAutomatedReasoningPolicyTestResult API por segundo. | 
| (Raciocínio automatizado) ListAutomatedReasoningPolicies solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-99471E7A)  | O número máximo de solicitações de ListAutomatedReasoningPolicies API por segundo. | 
| (Raciocínio automatizado) ListAutomatedReasoningPolicyBuildWorkflows solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-884C068A)  | O número máximo de solicitações de ListAutomatedReasoningPolicyBuildWorkflows API por segundo. | 
| (Raciocínio automatizado) ListAutomatedReasoningPolicyTestCases solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5DD391B1)  | O número máximo de solicitações de ListAutomatedReasoningPolicyTestCases API por segundo. | 
| (Raciocínio automatizado) ListAutomatedReasoningPolicyTestResults solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9D3DC9B2)  | O número máximo de solicitações de ListAutomatedReasoningPolicyTestResults API por segundo. | 
| (Raciocínio automatizado) Políticas por conta | Cada região compatível: 100 | Não | Número máximo de políticas de raciocínio automatizado em uma conta. | 
| (Raciocínio automatizado) Regras na política | Cada região com suporte: 500 | Não | Número máximo de regras em uma política de raciocínio automatizado. | 
| (Raciocínio automatizado) Tamanho do documento de origem (MB) | Cada região compatível: 5 | Não | Tamanho máximo do documento de origem (MB) para a criação de uma política de raciocínio automatizado. | 
| (Raciocínio automatizado) Tokens de documentos de origem | Cada região suportada: 122.880 | Não | Número máximo de tokens permitidos em um documento de origem ao criar uma política de raciocínio automatizado. | 
| (Raciocínio automatizado) StartAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região compatível: 1 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B7BF1255)  | O número máximo de solicitações de StartAutomatedReasoningPolicyBuildWorkflow API por segundo. | 
| (Raciocínio automatizado) StartAutomatedReasoningPolicyTestWorkflow solicitações por segundo | Cada região compatível: 1 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-07D73971)  | O número máximo de solicitações de StartAutomatedReasoningPolicyTestWorkflow API por segundo. | 
| (Raciocínio automatizado) Testes por política | Cada região compatível: 100 | Não | Número máximo de testes por política de raciocínio automatizado. | 
| (Raciocínio automatizado) Tipos por política | Cada região compatível: 50 | Não | Número máximo de tipos em uma política de raciocínio automatizado. | 
| (Raciocínio automatizado) UpdateAutomatedReasoningPolicy solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9EF56DA1)  | O número máximo de solicitações de UpdateAutomatedReasoningPolicy API por segundo. | 
| (Raciocínio automatizado) UpdateAutomatedReasoningPolicyAnnotations solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F2DCFA42)  | O número máximo de solicitações de UpdateAutomatedReasoningPolicyAnnotations API por segundo. | 
| (Raciocínio automatizado) UpdateAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9D7C8A75)  | O número máximo de solicitações de UpdateAutomatedReasoningPolicyTestCase API por segundo. | 
| (Raciocínio automatizado) Valores por tipo na política | Cada região compatível: 50 | Não | Número máximo de valores por tipo em uma política de raciocínio automatizado. | 
| (Raciocínio automatizado) Variáveis na política | Cada região compatível: 200 | Não | Número máximo de variáveis em uma política de raciocínio automatizado. | 
| (Raciocínio automatizado) Versões por política | Cada região com suporte: 1.000 | Não | Número máximo de versões por política de raciocínio automatizado. | 
| (Automação de dados) (Console) Tamanho máximo do arquivo de documento (MB) | Cada região compatível: 200 | Não | Tamanho máximo do arquivo para o console | 
| (Automação de dados) (Console) Número máximo de páginas por arquivo de documento | Cada região compatível: 20 | Não | Número máximo de páginas por documento no console | 
| (Automação de dados) CreateBlueprint - Número máximo de plantas por conta | Cada região compatível: 350 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-23CF4444)  | Número máximo de esquemas por conta | 
| (Automação de dados) CreateBlueprintVersion - Número máximo de versões do Blueprint por Blueprint | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-21EE8B55)  | Número máximo de versões por esquema | 
| (Automação de dados) Comprimento da descrição dos campos (caracteres) | Cada região com suporte: 300 | Não | Comprimento máximo da descrição dos campos em caracteres | 
| (Automação de dados) InvokeBlueprintOptimizationAsync - Número máximo de trabalhos simultâneos de otimização do blueprint | Cada região compatível: 3 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-54FAADA6)  | O número máximo de trabalhos abertos do Invoke Blueprint Optimization Async | 
| (Automação de dados) InvokeBlueprintOptimizationAsync - Número máximo de trabalhos de otimização do blueprint por dia | Cada região compatível: 30 | Não | O número máximo de trabalhos do Invoke Blueprint Optimization Async por dia | 
| (Automação de dados) InvokeDataAutomation (Sincronização) - Documento - Número máximo de solicitações | Cada região compatível: 60 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8B289D99)  | O número máximo de InvokeDataAutomation solicitações por minuto para a modalidade de documento | 
| (Automação de dados) InvokeDataAutomation (Sincronização) - Imagem - Número máximo de solicitações | us-east-1: 200<br />us-west-2: 200<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CF1B283E)  | O número máximo de InvokeDataAutomation solicitações por minuto para a modalidade de imagem | 
| (Automação de dados) InvokeDataAutomationAsync - Áudio - Número máximo de trabalhos simultâneos | us-east-1: 20<br />us-west-2: 20<br />Cada uma das outras regiões compatíveis: 2 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3E961CAB)  | Número máximo de trabalhos abertos Invoke Data Automation Async para áudios | 
| (Automação de dados) InvokeDataAutomationAsync - Documento - Número máximo de trabalhos simultâneos | us-east-1:25<br />us-west-2:25<br />Cada uma das outras regiões compatíveis: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9E3C255A)  | Número máximo de trabalhos abertos Invoke Data Automation Async para documentos | 
| (Automação de dados) InvokeDataAutomationAsync - Imagem - Número máximo de trabalhos simultâneos | us-east-1: 20<br />us-west-2: 20<br />Cada uma das outras regiões compatíveis: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BDD176EF)  | Número máximo de trabalhos abertos Invoke Data Automation Async para imagens | 
| (Automação de dados) InvokeDataAutomationAsync - Número máximo de vagas abertas | Cada região compatível: 1.800 | Não | Número máximo de trabalhos abertos Invoke Data Automation Async para imagens | 
| (Automação de dados) InvokeDataAutomationAsync - Vídeo - Número máximo de trabalhos simultâneos | us-east-1: 20<br />us-west-2: 20<br />Cada uma das outras regiões suportadas: 3 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-895C7A6C)  | Número máximo de trabalhos abertos Invoke Data Automation Async para vídeos | 
| (Automação de dados) Taxa máxima de amostragem de áudio (Hz) | Cada região suportada: 48.000 | Não | A taxa máxima de amostragem de áudio | 
| (Automação de dados) Máximo de esquemas por projeto (áudios) | Cada região compatível: 1 | Não | Número máximo de esquemas por projeto para áudios | 
| (Automação de dados) Máximo de esquemas por projeto (documentos) | Cada região compatível: 40 | Não | Número máximo de esquemas por projeto para documentos  | 
| (Automação de dados) Máximo de esquemas por projeto (imagens) | Cada região compatível: 1 | Não | Número máximo de esquemas por projeto para imagens | 
| (Automação de dados) Máximo de esquemas por projeto (vídeos) | Cada região compatível: 1 | Não | Número máximo de esquemas por projeto para vídeos | 
| (Automação de dados) Tamanho máximo do esquema JSON (caracteres) | Cada região compatível: 100.000 | Não | Tamanho máximo do JSON em caracteres | 
| (Automação de dados) Níveis máximos de hierarquia de campo | Cada região compatível: 1 | Não | Número máximo de níveis da hierarquia de campos | 
| (Automação de dados) Número máximo de páginas por documento | Cada região com suporte: 3.000 | Não | Número máximo de páginas por documento | 
| (Automação de dados) Resolução máxima | Cada região compatível: 8.000 | Não | A resolução máxima para imagens | 
| (Automação de dados) Tamanho máximo do arquivo de áudio (MB) | Cada região compatível: 2.048 | Não | Tamanho máximo do arquivo de áudio | 
| (Automação de dados) Duração máxima do áudio (minutos) | Cada região suportada: 240 | Não | A duração máxima do áudio em minutos | 
| (Automação de dados) Tamanho máximo do arquivo de documento (MB) | Cada região com suporte: 500 | Não | Tamanho máximo do arquivo | 
| (Automação de dados) Tamanho máximo do arquivo de imagem (MB) | Cada região compatível: 5 | Não | Tamanho máximo do arquivo para imagens | 
| (Automação de dados) Tamanho máximo do campo de instrução para Audio Blueprint - (caracteres) | Cada região com suporte: 500 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-00F9DD5C)  | O tamanho máximo do campo de instrução para o esquema de áudio em caracteres | 
| (Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (áudios) | Cada região compatível: 1 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência | 
| (Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (documentos) | Cada região com suporte: 10 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência | 
| (Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (imagens) | Cada região compatível: 1 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência | 
| (Automação de dados) Número máximo de esquemas por solicitação de início de inferência (vídeos) | Cada região compatível: 1 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência | 
| (Automação de dados) Número máximo de campos de lista por esquema | Cada região compatível: 15 | Não | Número máximo de campos de lista por esquema | 
| (Automação de dados) Tamanho máximo do arquivo de vídeo (MB) | Cada região compatível: 10,240 | Não | Tamanho máximo do arquivo para vídeos | 
| (Automação de dados) Duração máxima do vídeo (minutos) | Cada região suportada: 240 | Não | A duração máxima dos vídeos em minutos | 
| (Automação de dados) Taxa mínima de amostragem de áudio (Hz) | Cada região compatível: 8.000 | Não | A taxa mínima de amostragem de áudio | 
| (Automação de dados) Duração mínima do áudio (milissegundos) | Cada região com suporte: 500 | Não | A duração mínima do áudio em milissegundos | 
| (Avaliação) Número de trabalhos simultâneos de avaliação automática de modelos | Cada região compatível: 20 | Não | Número máximo de trabalhos de avaliação automática de modelos que você pode especificar de uma só vez nessa conta na região atual. | 
| (Avaliação) Número de trabalhos de avaliação de modelos simultâneos que usam operadores humanos | Cada região com suporte: 10 | Não | Número máximo de trabalhos de avaliação de modelos que usam operadores humanos que você pode especificar de uma só vez nessa conta na região atual. | 
| (Avaliação) Número de métricas personalizadas | Cada região com suporte: 10 | Não | Número máximo de métricas personalizadas que você pode especificar em um trabalho de avaliação de modelo que usa operadores humanos. | 
| (Avaliação) Número de conjuntos de dados de prompts personalizados em um trabalho de avaliação de modelo baseado em humanos | Cada região compatível: 1 | Não | Número máximo de conjuntos de dados de prompts personalizados que podem ser especificados em um trabalho de avaliação de modelo baseado em humanos nessa conta na região atual. | 
| (Avaliação) Número de conjuntos de dados por trabalho | Cada região compatível: 5 | Não | Número máximo de conjuntos de dados que pode ser especificado em um trabalho de avaliação de modelo automatizado. Isso inclui conjuntos de dados de prompts personalizados e incorporados. | 
| (Avaliação) Número de trabalhos de avaliação | Cada região com suporte: 5.000 | Não | Número máximo de trabalhos de avaliação de modelos que você pode criar nessa conta na região atual. | 
| (Avaliação) Número de métricas por conjunto de dados | Cada região compatível: 3 | Não | Número máximo de métricas que você pode especificar por conjunto de dados em um trabalho de avaliação de modelo automatizado. Isso inclui métricas personalizadas e incorporadas. | 
| (Avaliação) Número de modelos em um trabalho de avaliação de modelos que usa operadores humanos | Cada região compatível: 2 | Não | Número máximo de modelos que você pode especificar em um trabalho de avaliação de modelo que usa operadores humanos. | 
| (Avaliação) Número de modelos no trabalho de avaliação automatizada de modelos | Cada região compatível: 1 | Não | Número máximo de modelos que pode ser especificado em um trabalho de avaliação de modelo automatizado. | 
| (Avaliação) Número de prompts em um conjunto de dados de prompts personalizados | Cada região com suporte: 1.000 | Não | Número máximo de prompts que um conjunto de dados de prompts personalizados pode conter. | 
| (Avaliação) Tamanho do prompt | Cada região compatível: 4 | Não | Tamanho máximo (em KB) de um prompt individual em um conjunto de dados de prompts personalizados. | 
| (Avaliação) Tempo de tarefa para operadores | Cada região compatível: 30 | Não | A duração máxima (em dias) do tempo que um operador pode ter para concluir tarefas. | 
| (Fluxos) Nós de agente por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de agente. | 
| (Fluxos) Nós coletores por fluxo | Cada região compatível: 1 | Não | Número máximo de nós coletores. | 
| (Fluxos) Nós de condição por fluxo | Cada região compatível: 5 | Não | Número máximo de nós de condições. | 
| (Fluxos) Condições por nó de condições | Cada região compatível: 5 | Não | Número máximo de condições por nó de condições. | 
| (Fluxos) CreateFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreateFlow solicitações por segundo. | 
| (Fluxos) CreateFlowAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreateFlowAlias solicitações por segundo. | 
| (Fluxos) CreateFlowVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreateFlowVersion solicitações por segundo. | 
| (Fluxos) DeleteFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeleteFlow solicitações por segundo. | 
| (Fluxos) DeleteFlowAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeleteFlowAlias solicitações por segundo. | 
| (Fluxos) DeleteFlowVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeleteFlowVersion solicitações por segundo. | 
| (Fluxos) Aliases de fluxo por fluxo | Cada região com suporte: 10 | Não | Número máximo de aliases de fluxo. | 
| (Fluxos) Execuções de fluxo por conta | Cada região com suporte: 1.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F1613626)  | Número máximo de execuções de fluxo por conta. | 
| (Fluxos) Versões de fluxo por fluxo | Cada região com suporte: 10 | Não | Número máximo de versões de fluxo. | 
| (Fluxos) Fluxos por conta | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D321719B)  | Número máximo de fluxos por conta. | 
| (Fluxos) GetFlow solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetFlow solicitações por segundo. | 
| (Fluxos) GetFlowAlias solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetFlowAlias solicitações por segundo. | 
| (Fluxos) GetFlowVersion solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetFlowVersion solicitações por segundo. | 
| (Fluxos) Nós de código inline por fluxo | Cada região compatível: 5 | Não | Número máximo de nós de código em linha por fluxo. | 
| (Fluxos) Nós de entrada por fluxo | Cada região compatível: 1 | Não | Número máximo de nós de entrada de fluxo. | 
| (Fluxos) Nós iteradores por fluxo | Cada região compatível: 1 | Não | Número máximo de nós iteradores. | 
| (Fluxos) Nós de base de conhecimento por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de base de conhecimento. | 
| (Fluxos) Nós de funções do Lambda por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de funçõesdo Lambda. | 
| (Fluxos) Nós do Lex por fluxo | Cada região compatível: 5 | Não | Número máximo de nós do Lex. | 
| (Fluxos) ListFlowAliases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListFlowAliases solicitações por segundo. | 
| (Fluxos) ListFlowVersions solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListFlowVersions solicitações por segundo. | 
| (Fluxos) ListFlows solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListFlows solicitações por segundo. | 
| (Fluxos) Nós de saída por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de saída de fluxo. | 
| (Fluxos) PrepareFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de PrepareFlow solicitações por segundo. | 
| (Fluxos) Nós de prompts por fluxo | Cada região compatível: 20 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0F2A24D7)  | Número máximo de nós de prompts. | 
| (Fluxos) Nós de recuperação do S3 por fluxo | Cada região com suporte: 10 | Não | Número máximo de nós de recuperação do S3. | 
| (Fluxos) Nós de armazenamento do S3 por fluxo | Cada região com suporte: 10 | Não | Número máximo de nós de armazenamento do S3. | 
| (Fluxos) Total de nós por fluxo | Cada região compatível: 40 | Não | Número máximo de nós em um fluxo. | 
| (Fluxos) UpdateFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de UpdateFlow solicitações por segundo. | 
| (Fluxos) UpdateFlowAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de UpdateFlowAlias solicitações por segundo. | 
| (Fluxos) ValidateFlowDefinition solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de ValidateFlowDefinition solicitações por segundo. | 
| (Barreiras de proteção) Políticas de raciocínio automatizado por barreira de proteção | Cada região compatível: 2 | Não | Número máximo de políticas de raciocínio automatizado por barreira de proteção. | 
| (Barreiras de proteção) Tamanho da consulta de fundamentação contextual em unidades de texto | Cada região compatível: 1 | Não | Comprimento máximo, em unidades de texto, da consulta para fundamentação contextual | 
| (Barreiras de proteção) Tamanho da resposta de fundamentação contextual em unidades de texto | Cada região compatível: 5 | Não | Tamanho máximo, em unidades de texto, da resposta para fundamentação contextual | 
| (Barreiras de proteção) Tamanho da fonte de fundamentação contextual em unidades de texto | us-east-1: 100<br />us-west-2: 100<br />Cada uma das outras regiões compatíveis: 50 | Não | Tamanho máximo, em unidades de texto, da fonte de fundamentação para fundamentação contextual | 
| (Barreiras de proteção) Frases de exemplo por tópico | Cada região compatível: 5 | Não | Número máximo de exemplos de tópicos que podem ser incluídos por tópico | 
| (Barreiras de proteção) Barreiras de proteção por conta | Cada região compatível: 100 | Não | Número máximo de barreiras de proteção em uma conta | 
| (Guardrails) Unidades de texto da política de filtro de On-demand ApplyGuardrail conteúdo por segundo | us-east-1: 200<br />us-west-2: 200<br />Cada uma das outras regiões compatíveis: 25 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-01F3CD81)  | Número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo | 
| (Guardrails) Unidades de texto da política de filtro de On-demand ApplyGuardrail conteúdo por segundo (padrão) | us-east-1: 200<br />us-east-2:200<br />us-west-1:200<br />us-west-2: 200<br />ap-northeast-1:50<br />ap-northeast-2: 100<br />ap-south-1:50<br />ap-southeast-1: 100<br />eu-central-1:50<br />Cada uma das outras regiões compatíveis: 25 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6B3D3DE4)  | Número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo. Isso se aplica ao modelo de política de conteúdo padrão. | 
| (Guardrails) Unidades de texto da política de tópicos On-demand ApplyGuardrail negadas por segundo | us-east-1:50<br />us-west-2:50<br />Cada uma das outras regiões compatíveis: 25 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-124DCF3D)  | Número máximo de unidades de texto que podem ser processadas para políticas de tópico negado por segundo | 
| (Guardrails) Unidades de texto da política de tópicos On-demand ApplyGuardrail negadas por segundo (padrão) | us-east-1: 200<br />us-west-2: 200<br />Cada uma das outras regiões compatíveis: 25 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5755FAB6)  | Número máximo de unidades de texto que podem ser processadas para políticas de tópico negado por segundo. Isso se aplica ao modelo de política de tópico padrão. | 
| (Guardrails) Unidades de texto da política de filtro de informações On-demand ApplyGuardrail confidenciais por segundo | us-east-1: 500<br />us-east-2:100<br />us-west-1:50<br />us-west-2: 500<br />ap-northeast-1:500<br />ap-northeast-2: 100<br />ap-south-1:200<br />ap-southeast-1: 100<br />eu-central-1:500<br />Cada uma das outras regiões compatíveis: 25 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CFCAAB0E)  | Número máximo de unidades de texto que podem ser processadas para políticas de filtro de informações confidenciais por segundo | 
| (Guardrails) Unidades de texto da política de filtro de On-demand ApplyGuardrail palavras por segundo | us-east-1: 500<br />us-east-2:500<br />us-west-1:500<br />us-west-2: 500<br />ap-northeast-1:500<br />ap-northeast-2:500<br />ap-south-1:500<br />ap-southeast-1:500<br />eu-central-1:500<br />Cada uma das outras regiões compatíveis: 25 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9F4DB459)  | Número máximo de unidades de texto que podem ser processadas para políticas de filtro de palavras por segundo | 
| (Guardrails) unidades de texto da política de fundamentação On-demand ApplyGuardrail contextual por segundo | Cada região suportada: 106 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-086556D1)  | Número máximo de unidades de texto que podem ser processadas para políticas de fundamentação contextual por segundo | 
|  On-demand ApplyGuardrail Solicitações (guardrails) por segundo | us-east-1: 100<br />us-east-2:100<br />us-west-1:100<br />us-west-2: 100<br />ap-northeast-1:100<br />ap-northeast-2: 100<br />ap-south-1: 100<br />ap-southeast-1: 100<br />eu-central-1:100<br />Cada uma das outras regiões compatíveis: 25 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9072D6F0)  | O número máximo de chamadas de ApplyGuardrail API permitidas por segundo | 
| (Barreiras de proteção) Entidades regex no filtro de informações confidenciais | me-central-1:10<br />Cada uma das outras regiões suportadas: 30 | Não | Número máximo de regexes de filtro de barreira de proteção que podem ser incluídos em uma política de informações confidenciais | 
| (Barreiras de proteção) Comprimento do regex em caracteres | Cada região com suporte: 500 | Não | Comprimento máximo, em caracteres, de uma regex de filtro de barreira de proteção | 
| (Guardrails) Tópicos por barreira de proteção | Cada região compatível: 30 | Não | Número máximo de tópicos que podem ser definidos nas políticas de tópicos de barreiras de proteção | 
| (Grades de proteção) Versões por barreira de proteção | Cada região compatível: 20 | Não | Número máximo de versões que uma barreira de proteção pode ter | 
| (Barreiras de proteção) Comprimento da palavra em caracteres | Cada região compatível: 100 | Não | Comprimento máximo de uma palavra, em caracteres, em uma lista de palavras bloqueadas | 
| (Barreiras de proteção) Política de palavras por palavra | Cada região compatível: 10.000 | Não | Número máximo de palavras que podem ser incluídas em uma lista de palavras bloqueadas | 
| (Bases de conhecimento) Concorrentes IngestKnowledgeBaseDocuments e DeleteKnowledgeBaseDocuments solicitações por conta | Cada região com suporte: 10 | Não | O número máximo de DeleteKnowledgeBaseDocuments solicitações IngestKnowledgeBaseDocuments e solicitações que podem ser executadas ao mesmo tempo em uma conta. | 
| (Bases de conhecimento) Trabalhos de ingestão simultâneos por conta | Cada região compatível: 5 | Não | Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo em uma conta. | 
| (Bases de conhecimento) Trabalhos de ingestão simultâneos por fonte de dados | Cada região compatível: 1 | Não | Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo para uma fonte de dados. | 
| (Bases de conhecimento) Trabalhos de ingestão simultâneos por base de conhecimento | Cada região compatível: 1 | Não | Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo para uma base de conhecimento. | 
| (Bases de conhecimento) CreateDataSource solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de CreateDataSource API por segundo. | 
| (Bases de conhecimento) CreateKnowledgeBase solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de CreateKnowledgeBase API por segundo. | 
| (Bases de conhecimento) Fontes de dados por base de conhecimento | Cada região compatível: 5 | Não | Número máximo de fontes de dados por base de conhecimento. | 
| (Bases de conhecimento) DeleteDataSource solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteDataSource API por segundo. | 
| (Bases de conhecimento) DeleteKnowledgeBase solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteKnowledgeBase API por segundo. | 
| (Bases de conhecimento) DeleteKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de DeleteKnowledgeBaseDocuments API por segundo. | 
| (Bases de conhecimento) Arquivos a serem adicionados ou atualizados por trabalho de ingestão | Cada região compatível: 5.000.000 | Não | Número máximo de arquivos novos e atualizados que podem ser ingeridos por trabalho de ingestão. | 
| (Bases de conhecimento) Arquivos a serem excluídos por trabalho de ingestão | Cada região compatível: 5.000.000 | Não | Número máximo de arquivos que podem ser excluídos por trabalho de ingestão. | 
| (Bases de conhecimento) Arquivos a serem ingeridos por IngestKnowledgeBaseDocuments trabalho. | Cada região compatível: 25 | Não | O número máximo de documentos que podem ser ingeridos por IngestKnowledgeBaseDocuments solicitação. | 
| (Bases de conhecimento) GenerateQuery solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de GenerateQuery API por segundo. | 
| (Bases de conhecimento) GetDataSource solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetDataSource API por segundo. | 
| (Bases de conhecimento) GetIngestionJob solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetIngestionJob API por segundo. | 
| (Bases de conhecimento) GetKnowledgeBase solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetKnowledgeBase API por segundo. | 
| (Bases de conhecimento) GetKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de GetKnowledgeBaseDocuments API por segundo. | 
| (Bases de conhecimento) IngestKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de IngestKnowledgeBaseDocuments API por segundo. | 
| Tamanho IngestKnowledgeBaseDocuments total da carga útil (bases de conhecimento) | Cada região compatível: 6 | Não | O tamanho máximo (em MB) da carga útil total em uma IngestKnowledgeBaseDocuments solicitação. | 
| (Bases de conhecimento) Tamanho do arquivo de trabalho de ingestão com conteúdo de texto | Cada região compatível: 50 | Não | O tamanho máximo (em MB) de um arquivo com conteúdo de texto (como arquivos.txt, .pdf ou.docx) em um trabalho de ingestão. | 
| (Bases de conhecimento) Tamanho do trabalho de ingestão | Cada região compatível: 100 | Não | Tamanho máximo (em GB) de um trabalho de ingestão. | 
| (Bases de conhecimento) Bases de conhecimento por conta | Cada região compatível: 100 | Não | Número máximo de bases de conhecimento por conta. | 
| (Bases de conhecimento) ListDataSources solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListDataSources API por segundo. | 
| (Bases de conhecimento) ListIngestionJobs solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListIngestionJobs API por segundo. | 
| (Bases de conhecimento) ListKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de ListKnowledgeBaseDocuments API por segundo. | 
| (Bases de conhecimento) ListKnowledgeBases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListKnowledgeBases API por segundo. | 
| (Bases de conhecimento) Número máximo de arquivos para o analisador de BDA | Cada região com suporte: 1.000 | Não | Número máximo de arquivos que podem ser usados com a automação de dados do Amazon Bedrock como analisador. | 
| (Bases de conhecimento) Número máximo de arquivos para modelos de base como um analisador | Cada região com suporte: 1.000 | Não | Número máximo de arquivos que podem ser usados com modelos de base como um analisador. | 
| (Bases de conhecimento) Solicitações de Rerank por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API Rerank por segundo. | 
| (Bases de conhecimento) Solicitações de Retrieve por segundo | Cada região compatível: 20 | Não | Número máximo de solicitações da API Retrieve por segundo. | 
| (Bases de conhecimento) RetrieveAndGenerate solicitações por segundo | Cada região compatível: 20 | Não | O número máximo de solicitações de RetrieveAndGenerate API por segundo. | 
| (Bases de conhecimento) RetrieveAndGenerateStream solicitações por segundo | Cada região compatível: 20 | Não | O número máximo de solicitações de RetrieveAndGenerateStream API por segundo. | 
| (Bases de conhecimento) StartIngestionJob solicitações por segundo | Cada região suportada: 0,1 | Não | O número máximo de solicitações de StartIngestionJob API por segundo. | 
| (Bases de conhecimento) UpdateDataSource solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de UpdateDataSource API por segundo. | 
| (Bases de conhecimento) UpdateKnowledgeBase solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de UpdateKnowledgeBase API por segundo. | 
| (Bases de conhecimento) Tamanho da consulta do usuário | Cada região com suporte: 1.000 | Não | Tamanho máximo (em caracteres) de uma consulta do usuário. | 
| (Personalização de modelos) Modelos personalizados por conta | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CB5B847D)  | Número máximo de modelos personalizados em uma conta. | 
| (Personalização do modelo) implantações In-progress de modelos personalizados | Cada região compatível: 2 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-430C95DD)  | Número máximo de implantações de modelos personalizados em andamento | 
| (Personalização de modelo) Tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação | Cada região compatível: 2 gigabites | Não | Tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação. | 
| (Personalização de modelo) Comprimento máximo da linha para trabalhos de personalização da destilação | Cada região compatível: 16 kilobytes | Não | Comprimento máximo da linha no arquivo de entrada para trabalhos de personalização de destilação. | 
| (Personalização de modelo) Número máximo de prompts para trabalhos de personalização de destilação | Cada região compatível: 15.000 | Não | Número máximo de prompts necessários para trabalhos de personalização de destilação. | 
| (Personalização do modelo) Número máximo de registros de treinamento para um trabalho no Amazon Nova Canvas Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D3D1200C)  | O número máximo de registros permitido para um Fine-tuning trabalho do Amazon Nova Canvas. | 
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova Micro V1 | Cada região suportada: 32.000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova Micro V1. | 
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova V1 | Cada região suportada: 32.000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova V1. | 
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Anthropic Claude 3 haiku 20240307 V1 | Cada região suportada: 32.000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Anthropic Claude 3 haiku 20240307 V1. | 
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1 | Cada região compatível: 16.000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1. | 
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1 | Cada região suportada: 32.000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1. | 
| (Personalização de modelo) Número mínimo de prompts para trabalhos de personalização de destilação | Cada região compatível: 100 | Não | Número mínimo de prompts necessário para trabalhos de personalização de destilação. | 
| (Personalização de modelo) Trabalhos de personalização programados | Cada região com suporte: 10 | Não | Número máximo de trabalhos de personalização programados. | 
| (Personalização do modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova 2 Lite | Cada região compatível: 2.000 | Não | A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova 2 Lite | 
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Lite | Cada região compatível: 2.000 | Não | A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Lite | 
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Micro | Cada região compatível: 2.000 | Não | A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Micro | 
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Pro | Cada região compatível: 200 | Não | A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas para o Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Pro | 
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 400 | Não | A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas ao Converse,, ConverseStream InvokeModel, e das InvokeModelWithResponseStream ações do Meta Llama 3.3 70B Instruct | 
| (Personalização do modelo) Soma de tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova 2 Lite | Cada região compatível: 5.760.000.000 | Não | A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova 2 Lite | 
| (Personalização de modelo) Soma dos tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova Lite | Cada região compatível: 5.760.000.000 | Não | A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Lite | 
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova Micro | Cada região compatível: 5.760.000.000 | Não | A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Micro | 
| (Personalização de modelo) Soma de tokens de implantação de modelo personalizado sob demanda por dia para o Amazon Nova Pro | Cada região compatível: 1.152.000.000 | Não | A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Pro | 
| (Personalização de modelo) Soma dos tokens de implantação de modelos personalizados sob demanda por dia para o Meta Llama 3.3 70B Instruct | Cada região compatível: 432.000.000 | Não | A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e das InvokeModelWithResponseStream ações do Meta Llama 3.3 70B Instruct | 
| (Personalização do modelo) Soma de tokens de implantação de modelo personalizado sob demanda por minuto para o Amazon Nova 2 Lite | Cada região compatível: 4.000.000 | Não | A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova 2 Lite | 
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Lite | Cada região compatível: 4.000.000 | Não | A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Lite | 
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Micro | Cada região compatível: 4.000.000 | Não | A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Micro | 
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Pro | Cada região suportada: 800.000 | Não | A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Pro | 
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para Meta Llama 3.3 70B Instruct | Cada região compatível: 300.000 | Não | A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e das InvokeModelWithResponseStream ações do Meta Llama 3.3 70B Instruct | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de uma tarefa do Amazon Nova 2 Lite Fine-tuning  | Cada região com suporte: 20.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-82EE9228)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho do Amazon Nova 2 Lite. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho do Amazon Nova Lite Fine-tuning  | Cada região com suporte: 20.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-031F46A7)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho no Amazon Nova Lite. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho na Amazon Nova Micro Fine-tuning  | Cada região com suporte: 20.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EC6A6ABC)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho na Amazon Nova Micro. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho no Amazon Nova Pro Fine-tuning  | Cada região com suporte: 20.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-70FC4C0E)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho no Amazon Nova Pro. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de Claude 3 Haiku v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-679179D2)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho de Claude 3 no Haiku Fine-tuning . | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de Claude 3-5-Haiku v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-ADA98D8D)  | O número máximo combinado de registros de treinamento e validação permitia um trabalho em Claude Fine-tuning 3-5-Haiku. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa do Meta Llama 2 13B v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-68AE6C02)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 2 13B. Fine-tuning  | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa do Meta Llama 2 70B v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5A222661)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 2 70B. Fine-tuning  | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho do Meta Llama 3.1 70B Instruct v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-63EC9D04)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 3.1 70B Fine-tuning Instruct. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho do Meta Llama 3.1 8B Instruct v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-34C933D1)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 3.1 8B Fine-tuning Instruct. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho do Meta Llama 3.2 11B Instruct v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E5FD5C04)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 3.2 11B Fine-tuning Instruct. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho do Meta Llama 3.2 1B Instruct v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-70B8359C)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 3.2 1B Fine-tuning Instruct. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho do Meta Llama 3.2 3B Instruct v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-75A18A04)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 3.2 3B Fine-tuning Instruct. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho do Meta Llama 3.2 90B Instruct v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8076814C)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 3.2 90B Fine-tuning Instruct. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho do Meta Llama 3.3 70B Instruct v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-48C95F85)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho no Meta Llama 3.3 70B Fine-tuning Instruct. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa do Titan Image Generator G1 V1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-73BBA086)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho no Titan Image Generator. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa do Titan Image Generator G1 V2 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F15FCC01)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho do Titan Image Generator V2 Fine-tuning . | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa da Titan Multimodal Embeddings G1 v1 Fine-tuning  | Cada região compatível: 50.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BB313AA3)  | O número máximo combinado de registros de treinamento e validação permitido para um trabalho da Titan Multimodal Embeddings. Fine-tuning  | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho contínuo do Titan Text G1 - Express v1 Pre-Training  | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CDD9DC4A)  | O número máximo combinado de registros de treinamento e validação permitido para um Pre-Training trabalho contínuo do Titan Text Express. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa do Titan Text G1 - Express v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-79BA683B)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho do Titan Text Express. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho contínuo do Titan Text G1 - Lite v1 Pre-Training  | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-91554672)  | O número máximo combinado de registros de treinamento e validação permitido para um Pre-Training trabalho contínuo do Titan Text Lite. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa do Titan Text G1 - Lite v1 Fine-tuning  | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3B82104D)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho do Titan Text Lite. | 
| (Personalização do modelo) Soma dos registros de treinamento e validação para uma tarefa do Titan Text G1 - Premier v1 Fine-tuning  | Cada região com suporte: 20.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C0CACF50)  | O número máximo combinado de registros de treinamento e validação permitido para um Fine-tuning trabalho no Titan Text Premier. | 
| (Personalização de modelos) Número total de implantações de modelos personalizados | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1EF80F3E)  | Número total de implantações de modelos personalizados | 
| (Gerenciamento imediato) CreatePrompt solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreatePrompt solicitações por segundo. | 
| (Gerenciamento imediato) CreatePromptVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreatePromptVersion solicitações por segundo. | 
| (Gerenciamento imediato) DeletePrompt solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeletePrompt solicitações por segundo. | 
| (Gerenciamento imediato) GetPrompt solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetPrompt solicitações por segundo. | 
| (Gerenciamento imediato) ListPrompts solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListPrompts solicitações por segundo. | 
| (Gerenciamento de prompts) Prompts por conta | Cada região com suporte: 500 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B783C50B)  | Número máximo de prompts. | 
| (Gerenciamento imediato) UpdatePrompt solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de UpdatePrompt solicitações por segundo. | 
| (Gerenciamento de prompts) Versões por prompt | Cada região com suporte: 10 | Não | Número máximo de versões por prompt. | 
| APIs por agente | Cada região compatível: 11 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6B2DA87E)  | Número máximo de APIs que você pode adicionar a um agente. | 
| Grupos de ações por agente | Cada região compatível: 20 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5DAAE567)  | Número máximo de grupos de ações que podem ser adicionados a um agente. | 
| Colaboradores de agente por agente | Cada região com suporte: 1.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EAFCD549)  | Número máximo de agentes colaboradores que você pode adicionar a um agente. | 
| Agentes por conta | Cada região com suporte: 1.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-97D79C54)  | Número máximo de agentes em uma conta. | 
| AssociateAgentKnowledgeBase solicitações por segundo | Cada região compatível: 6 | Não | O número máximo de solicitações de AssociateAgentKnowledgeBase API por segundo. | 
| Aliases associados por agente | Cada região com suporte: 10 | Não | Número máximo de aliases que pode ser associado a um Agente. | 
| Bases de conhecimento associadas por agente | Cada região compatível: 2 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-13143995)  | Número máximo de bases de conhecimento que podem ser associadas a um agente. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Amazon Nova 2 Multimodal Embeddings V1. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Amazon Nova Premier | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Amazon Nova Premier. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Haiku | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Haiku. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Opus | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Opus. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Sonnet | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Sonnet. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Haiku | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Haiku. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Sonnet | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Sonnet v2 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet v2. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.7 Sonnet | Cada região compatível: 1 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F8B0126D)  | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.7 Sonnet. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Haiku 4.5 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude Haiku 4.5. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Opus 4.5 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude Opus 4.5. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Opus 4.6 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude Opus 4.6. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Sonnet 4 | Cada região compatível: 1 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F611997D)  | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude Sonnet 4. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Sonnet 4.5 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude Sonnet 4.5. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Sonnet 4.6 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude Sonnet 4.6. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para DeepSeek V3.2 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para DeepSeek V3.2. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para v3 DeepSeek  | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para a DeepSeek v3. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Devstral 2 123B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Devstral 2 123B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para GLM 4.7 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o GLM 4.7. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para GLM 4.7 Flash | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o GLM 4.7 Flash. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para GLM 5 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o GLM 5. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Gemma 3 12B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Gemma 3 12B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Gemma 3 27B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Gemma 3 27B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Gemma 3 4B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Gemma 3 4B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Kimi K2 Thinking | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Kimi K2 Thinking. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Kimi K2.5 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para K2.5 Kimi. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 405B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 405B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 70B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 70B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 8B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 8B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 11B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 11B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 1B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 1B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 3B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 3B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 90B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 90B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.3 70B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.3 70B Instruct. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 4 Maverick | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Maverick. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 4 Scout | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Scout. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Magistral Small 2509 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Magistral Small 2509. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para MiniMax M2 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para MiniMax M2. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para MiniMax M2.1 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para MiniMax M2.1. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para MiniMax M2.5 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para MiniMax M2.5. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Ministral 3 14B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Ministral 3 14B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Ministral 3 8B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Ministral 3 8B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Ministral 3B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Ministral 3B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Mistral Large 2 (24.07) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Large 2 (24.07). | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Mistral Large 3 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Large 3. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Mistral Small | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Small. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para NVIDIA Nemotron 3 Super 120B A12B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para NVIDIA Nemotron Nano 12B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o NVIDIA Nemotron Nano 12B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para NVIDIA Nemotron Nano 3 30B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o NVIDIA Nemotron Nano 3 30B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para NVIDIA Nemotron Nano 9B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o NVIDIA Nemotron Nano 9B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Nova 2 Lite | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova 2 Lite. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Lite V1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Lite V1. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Micro V1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Micro V1. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Pro V1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Pro V1. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o OpenAI GPT OSS 120b | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS 120b. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o OpenAI GPT OSS 20b | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS 20b. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 120b | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS Safeguard 120b. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 20b | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS Safeguard 20b. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 235B | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 235B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 32B | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 32B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Coder 30B | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder 30B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Coder 480B | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder 480B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Coder Next | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder Next. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Next 80B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Next 80B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 VL 235B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 VL 235B. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Titan Multimodal Embeddings G1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Titan Multimodal Embeddings G1. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Titan Text Embeddings V2 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Titan Text Embeddings V2. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Voxtral Mini 3B 2507 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Voxtral Mini 3B 2507. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Voxtral Small 24B 2507 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Voxtral Small 24B 2507. | 
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Writer Palmyra Vision 7B | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Writer Palmyra Vision 7B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Qwen3 Next 80B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Next 80B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 100 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Amazon Nova Premier | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Amazon Nova Premier. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Haiku | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Haiku. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Opus | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Opus. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Sonnet | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Sonnet. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.5 Haiku | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Haiku. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.5 Sonnet | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Sonnet. | 
| Tamanho do trabalho de inferência em lote (em GB) para o 3.5 Sonnet v2 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Sonnet v2. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.7 Sonnet | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-02D6293C)  | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.7 Sonnet. | 
| Tamanho do trabalho de inferência em lote (em GB) para Claude Haiku 4.5 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude Haiku 4.5. | 
| Tamanho do trabalho de inferência em lote (em GB) para Claude Opus 4.5 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude Opus 4.5. | 
| Tamanho do trabalho de inferência em lote (em GB) para Claude Opus 4.6 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude Opus 4.6. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Claude Sonnet 4 | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E31283B0)  | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude Sonnet 4. | 
| Tamanho do trabalho de inferência em lote (em GB) para Claude Sonnet 4.5 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Claude Sonnet 4.5. | 
| Tamanho do trabalho de inferência em lote (em GB) para Claude Sonnet 4.6 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude Sonnet 4.6. | 
| Tamanho do trabalho de inferência em lote (em GB) para DeepSeek V3.2 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para. DeepSeek V3.2 | 
| Tamanho do trabalho de inferência em lote (em GB) para v3 DeepSeek  | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para DeepSeek a v3. | 
| Tamanho do trabalho de inferência em lote (em GB) para Devstral 2 123B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Devstral 2 123B. | 
| Tamanho do trabalho de inferência em lote (em GB) para o GLM 4.7 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o GLM 4.7. | 
| Tamanho do trabalho de inferência em lote (em GB) para o GLM 4.7 Flash | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o GLM 4.7 Flash. | 
| Tamanho do trabalho de inferência em lote (em GB) para GLM 5 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o GLM 5. | 
| Tamanho do trabalho de inferência em lote (em GB) para Gemma 3 12B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Gemma 3 12B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Gemma 3 27B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Gemma 3 27B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Gemma 3 4B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Gemma 3 4B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Kimi K2 Thinking | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Kimi K2 Thinking. | 
| Tamanho do trabalho de inferência em lote (em GB) para Kimi K2.5 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Kimi. K2.5 | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 405B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 405B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 70B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 70B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 8B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 8B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 11B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 11B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 1B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 1B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 3B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 3B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 90B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 90B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.3 70B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.3 70B Instruct. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 4 Maverick | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Maverick. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 4 Scout | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Scout. | 
| Tamanho do trabalho de inferência em lote (em GB) para Magistral Small 2509 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Magistral Small 2509. | 
| Tamanho do trabalho de inferência em lote (em GB) para MiniMax M2 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para MiniMax M2. | 
| Tamanho do trabalho de inferência em lote (em GB) para MiniMax M2.1 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para. MiniMax M2.1 | 
| Tamanho do trabalho de inferência em lote (em GB) para MiniMax M2.5 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para. MiniMax M2.5 | 
| Tamanho do trabalho de inferência em lote (em GB) para Ministral 3 14B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Ministral 3 14B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Ministral 3 8B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Ministral 3 8B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Ministral 3B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Ministral 3B. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Mistral Large 2 (24.07) | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Mistral Large 2 (24.07). | 
| Tamanho do trabalho de inferência em lote (em GB) para Mistral Large 3 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Mistral Large 3. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Mistral Small | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Mistral Small. | 
| Tamanho do trabalho de inferência em lote (em GB) para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para NVIDIA Nemotron 3 Super 120B A12B. | 
| Tamanho do trabalho de inferência em lote (em GB) para NVIDIA Nemotron Nano 12B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o NVIDIA Nemotron Nano 12B. | 
| Tamanho do trabalho de inferência em lote (em GB) para NVIDIA Nemotron Nano 3 30B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o NVIDIA Nemotron Nano 3 30B. | 
| Tamanho do trabalho de inferência em lote (em GB) para NVIDIA Nemotron Nano 9B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Nova Lite V1 | me-central-1:5<br />Cada uma das outras regiões compatíveis: 100 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Lite V1. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Nova Micro V1 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Micro V1. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Nova Pro V1 | Cada região compatível: 100 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Pro V1. | 
| Tamanho do trabalho de inferência em lote (em GB) para o OpenAI GPT OSS 120b | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS 120b. | 
| Tamanho do trabalho de inferência em lote (em GB) para o OpenAI GPT OSS 20b | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS 20b. | 
| Tamanho do trabalho de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 120b | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b. | 
| Tamanho do trabalho de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 20b | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b. | 
| Tamanho do trabalho de inferência em lote (em GB) para Qwen3 235B | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 235B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Qwen3 32B | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 32B. | 
| Tamanho do trabalho de inferência em lote (em GB) para Qwen3 Coder 30B | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder 30B. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Qwen3 Coder 480B | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder 480B. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Qwen3 Coder Next | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder Next. | 
| Tamanho do trabalho de inferência em lote (em GB) para Qwen3 VL 235B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 VL 235B. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Titan Multimodal Embeddings G1 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Titan Multimodal Embeddings G1. | 
| Tamanho do trabalho de inferência em lote (em GB) para Titan Text Embeddings V2 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Titan Text Embeddings V2. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Voxtral Mini 3B 2507 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Voxtral Mini 3B 2507. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Voxtral Small 24B 2507 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Voxtral Small 24B 2507. | 
| Tamanho do trabalho de inferência em lote (em GB) para o Writer Palmyra Vision 7B | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Writer Palmyra Vision 7B. | 
| Caracteres nas instruções do agente | Cada região com suporte: 20.000 | Não | Número máximo de caracteres nas instruções de um agente. | 
| Trabalhos simultâneos de importação de modelos | Cada região compatível: 1 | Não | Número máximo de trabalhos de importação de modelos que estão em andamento ao mesmo tempo. | 
| CreateAgent solicitações por segundo | Cada região compatível: 6 | Não | O número máximo de solicitações de CreateAgent API por segundo. | 
| CreateAgentActionGroup solicitações por segundo | Cada região compatível: 12 | Não | O número máximo de solicitações de CreateAgentActionGroup API por segundo. | 
| CreateAgentAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de CreateAgentAlias API por segundo. | 
| Cross-Region solicitações de inferência de modelos por minuto para Anthropic Claude 3.5 Haiku | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto. A cota considera a soma combinada InvokeModel e os InvokeModelWithResponseStream tokens do Anthropic Claude 3.5 Haiku. | 
| Cross-Region solicitações de inferência de modelo por minuto para Anthropic Claude 3.5 Sonnet V2 | us-west-2: 500<br />Cada uma das outras regiões compatíveis: 100 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-Region modelos de tokens de inferência por minuto para Anthropic Claude 3.5 Haiku | Cada região compatível: 4.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4BF37C17)  | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3.5 Haiku. ConverseStream | 
| Cross-Region tokens de inferência de modelo por minuto para Anthropic Claude 3.5 Sonnet V2 | us-west-2: 4,000,000<br />Cada uma das outras regiões suportadas: 800.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FF8B4E28)  | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region solicitações de inferência de modelos por minuto para o Amazon Nova 2 Lite | Cada região compatível: 2.000 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para o Amazon Nova 2 Omni | Cada região compatível: 2.000 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Amazon Nova 2 Pro Preview | Cada região compatível: 100 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para o Amazon Nova Lite | us-east-1:4.000<br />us-east-2:4.000<br />us-west-1:4.000<br />us-west-2:4.000<br />Cada uma das outras regiões suportadas: 400 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para o Amazon Nova Micro | us-east-1:4.000<br />us-east-2:4.000<br />us-west-2:4.000<br />Cada uma das outras regiões suportadas: 400 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para o Amazon Nova Premier V1 | Cada região com suporte: 500 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para o Amazon Nova Pro | Cada região com suporte: 500 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para Anthropic Claude 3 Haiku | us-east-1: 2.000<br />us-west-2: 2.000<br />ap-northeast-1:400<br />ap-southeast-1 ap-southeast-1:400<br />Cada uma das outras regiões compatíveis: 800 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Haiku. | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude 3 Opus | Cada região compatível: 100 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Anthropic Claude 3 Sonnet | us-east-1: 1.000<br />us-west-2: 1.000<br />Cada uma das outras regiões compatíveis: 200 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet. | 
| Cross-region solicitações de inferência de modelo por minuto para o Anthropic Claude 3.5 Sonnet | us-west-2: 500<br />ap-northeast-1:40<br />ap-southeast-1 ap-southeast-1:40<br />eu-central-1:40<br />eu-west-1:40<br />eu-west-3:40<br />Cada uma das outras regiões compatíveis: 100 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude 3.7 Sonnet V1 | us-east-1:250<br />us-east-2:250<br />us-west-2:250<br />eu-central-1:100<br />eu-north-1:100<br />eu-west-1:100<br />eu-west-3:100<br />Cada uma das outras regiões compatíveis: 50 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para Anthropic Claude Haiku 4.5 | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CCA5DF70)  | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Opus 4 V1 | Cada região compatível: 200 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Opus 4.1 | Cada região compatível: 50 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Opus 4.5 | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-27989F42)  | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Opus 4.6 V1 | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-11DFF789)  | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-559DCC33)  | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Sonnet 4 V1 1M Context Length | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-534E5E05)  | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Sonnet 4.5 V1 | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4A6BFAB1)  | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região com suporte: 1.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A052927A)  | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Anthropic Claude Sonnet 4.6 | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-00FF3314)  | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Cohere Embed V4 | Cada região compatível: 2.000 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para DeepSeek R1 V1 | Cada região compatível: 200 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para DeepSeek R1 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Meta Llama 3.1 405B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Meta Llama 3.1 70B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 1.600 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 1.600 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 1.600 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| Cross-region solicitações de inferência de modelo por minuto para Meta Llama 3.3 70B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Meta Llama 4 Maverick V1 | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Meta Llama 4 Scout V1 | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Mistral Pixtral Large 25.02 V1 | Cada região com suporte: 10 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para Stable Image Conservative Upscale | Cada região compatível: 4 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Conservative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Stable Image Control Sketch | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Sketch. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para uma estrutura de controle de imagem estável | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Structure. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Stable Image Creative Upscale | Cada região compatível: 4 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para objeto de apagamento de imagem estável | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Erase Object. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para Stable Image Fast Upscale | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Fast Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Stable Image Inpaint | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Inpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Stable Image Outpaint | Cada região compatível: 4 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Outpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Stable Image Remover Background | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Remove Background. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para pesquisa e recoloração estáveis de imagens | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Recolor. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para pesquisa e substituição de imagens estáveis | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Replace. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Stable Image Style Guide | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Guide. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para transferência estável de estilo de imagem | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Transfer. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelos por minuto para Twelve Labs Marengo | Cada região compatível: 200 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Marengo. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para Twelve Labs Pegasus | Cada região compatível: 120 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6E046197)  | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region solicitações de inferência de modelo por minuto para o TwelveLabs Marengo Embed 3.0 | Cada região com suporte: 1.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E5197E26)  | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o TwelveLabs Marengo Embed 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Writer AI Palmyra X4 V1 | Cada região com suporte: 10 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region solicitações de inferência de modelo por minuto para o Writer AI Palmyra X5 V1 | Cada região com suporte: 10 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Cross-region tokens de inferência de modelo por minuto para o Amazon Nova 2 Lite | Cada região suportada: 8.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C6F5908D)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Amazon Nova 2 Omni | Cada região suportada: 8.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-2438ED67)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para o Amazon Nova 2 Pro Preview | Cada região com suporte: 1.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F0AF140A)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para o Amazon Nova Lite | us-east-1: 8,000,000<br />us-east-2: 8,000,000<br />us-west-1: 8,000,000<br />us-west-2: 8,000,000<br />Cada uma das outras regiões suportadas: 400.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7C42E72A)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Amazon Nova Micro | us-east-1: 8,000,000<br />us-east-2: 8,000,000<br />us-west-2: 8,000,000<br />Cada uma das outras regiões suportadas: 400.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DC7FF66C)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para o Amazon Nova Premier V1 | Cada região compatível: 2.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AA7FE948)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para o Amazon Nova Pro | Cada região compatível: 2.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C0326783)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region modele tokens de inferência por minuto para Anthropic Claude 3 Haiku | us-east-1: 4,000,000<br />us-west-2: 4,000,000<br />ap-northeast-1:400.000<br />ap-southeast-1 ap-southeast-1:400.000<br />Cada uma das outras regiões suportadas: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DCADBC78)  | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3 Haiku. ConverseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude 3 Opus | Cada região suportada: 800.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6C86825E)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude 3 Sonnet | us-east-1: 2,000,000<br />us-west-2: 2,000,000<br />Cada uma das outras regiões suportadas: 400.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5DF13F64)  | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. ConverseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude 3.5 Sonnet | us-west-2: 4,000,000<br />ap-northeast-1:400.000<br />ap-southeast-1 ap-southeast-1:400.000<br />eu-central-1:400.000<br />eu-west-1:400.000<br />eu-west-3:400.000<br />Cada uma das outras regiões suportadas: 800.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-479B647F)  | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude 3.7 Sonnet V1 | us-east-1: 1,000,000<br />us-east-2: 1,000,000<br />us-west-2: 1,000,000<br />eu-central-1:100.000<br />eu-north-1:100.000<br />eu-west-1:100.000<br />eu-west-3:100.000<br />Cada uma das outras regiões suportadas: 50.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6E888CC2)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Haiku 4.5 | Cada região compatível: 5.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-58BE175A)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Opus 4 V1 | Cada região compatível: 200.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-29C2B0A3)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Opus 4.1 | Cada região compatível: 500.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BD85BFCD)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Opus 4.5 | Cada região compatível: 2.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7007E9C9)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Opus 4.6 V1 | Cada região compatível: 3.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0AD9BBE8)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Opus 4.7 | Cada região suportada: 30.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5DB28B7B)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.7. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-59759B4A)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Sonnet 4 V1 1M Context Length | Cada região com suporte: 1.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1FA095B8)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Sonnet 4.5 V1 | Cada região compatível: 5.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F4DDD3EB)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região com suporte: 1.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8EA73537)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Anthropic Claude Sonnet 4.6 | Cada região suportada: 6.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-15B8E632)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Cohere Embed V4 | Cada região compatível: 300.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4C3F0FE6)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para DeepSeek R1 V1 | Cada região compatível: 200.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-06B03968)  | O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para DeepSeek R1 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 3.1 405B Instruct | Cada região suportada: 800.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9913DEEF)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 3.1 70B Instruct | Cada região suportada: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-92E68994)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 3.1 8B Instruct | Cada região suportada: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9782749C)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 3.2 1B Instruct | Cada região suportada: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BD9FDA6F)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 3.2 3B Instruct | Cada região suportada: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0B2687F4)  | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 3.3 70B Instruct | Cada região suportada: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0E7AA8B7)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 4 Maverick V1 | Cada região suportada: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DE3FBBF4)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Meta Llama 4 Scout V1 | Cada região suportada: 600.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-532E6630)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para Mistral Pixtral Large 25.02 V1 | Cada região compatível: 80.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4B9F76B0)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para o Writer AI Palmyra X4 V1 | Cada região compatível: 150.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FF1F238B)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Cross-region tokens de inferência de modelo por minuto para o Writer AI Palmyra X5 V1 | Cada região compatível: 150.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-90DFE70F)  | Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Modelos personalizados com status de criação por conta | Cada região compatível: 2 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C02E1E99)  | Número máximo de modelos personalizados com status de criação. | 
| DeleteAgent solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgent API por segundo. | 
| DeleteAgentActionGroup solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgentActionGroup API por segundo. | 
| DeleteAgentAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgentAlias API por segundo. | 
| DeleteAgentVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgentVersion API por segundo. | 
| DisassociateAgentKnowledgeBase solicitações por segundo | Cada região compatível: 4 | Não | O número máximo de solicitações de DisassociateAgentKnowledgeBase API por segundo. | 
| Grupos de ações habilitados por agente | Cada região compatível: 15 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-14A16430)  | Número máximo de grupos de ações que podem ser habilitados em um agente. | 
| Endpoints por perfil de inferência | Cada região compatível: 5 | Não | Número máximo de endpoints em um perfil de inferência. Um endpoint é definido por um modelo e pela região para a qual as solicitações de invocação do modelo são enviadas. | 
| GetAgent solicitações por segundo | Cada região compatível: 15 | Não | O número máximo de solicitações de GetAgent API por segundo. | 
| GetAgentActionGroup solicitações por segundo | Cada região compatível: 20 | Não | O número máximo de solicitações de GetAgentActionGroup API por segundo. | 
| GetAgentAlias solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetAgentAlias API por segundo. | 
| GetAgentKnowledgeBase solicitações por segundo | Cada região compatível: 15 | Não | O número máximo de solicitações de GetAgentKnowledgeBase API por segundo. | 
| GetAgentVersion solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetAgentVersion API por segundo. | 
| Solicitações globais de inferência de modelos entre regiões por minuto para o Amazon Nova 2 Lite | Cada região com suporte: 2.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D5F39C2F)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações globais de inferência de modelos entre regiões por minuto para o Amazon Nova 2 Omni | Cada região com suporte: 2.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DCD79770)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações globais de inferência de modelos entre regiões por minuto para o Amazon Nova 2 Pro Preview | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A3425ABD)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Haiku 4.5 | me-central-1:1.000<br />Cada uma das outras regiões compatíveis: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E5084BBA)  | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações globais de inferência de modelos entre regiões por minuto para Anthropic Claude Opus 4.5 | me-central-1:500<br />Cada uma das outras regiões compatíveis: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-58424D95)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações globais de inferência de modelos entre regiões por minuto para Anthropic Claude Opus 4.6 V1 | me-central-1:500<br />Cada uma das outras regiões compatíveis: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3DD46812)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações de inferência do modelo global entre regiões por minuto para Anthropic Claude Opus 4.6 V1 1M Context Length | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CDA5906C)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para Anthropic Claude Opus 4.6 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C63AA5DA)  | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 | me-central-1:1.000<br />Cada uma das outras regiões compatíveis: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DB84CE56)  | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | me-central-1:5<br />Cada uma das outras regiões compatíveis: 1.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C0D53EFB)  | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações globais de inferência de modelos entre regiões por minuto para o Anthropic Claude Sonnet 4.6 | Cada região com suporte: 10.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F6E116D7)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações globais de inferência de modelos entre regiões por minuto para Anthropic Claude Sonnet 4.6 1M Context Length | Cada região com suporte: 500 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B117CDDA)  | O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Solicitações de inferência de modelo global entre regiões por minuto para o Cohere Embed V4 | Cada região com suporte: 2.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7089DC7D)  | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| Tokens globais de inferência de modelos entre regiões por dia para o Amazon Nova 2 Lite | Cada região suportada: 11.520.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Amazon Nova 2 Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência de modelos entre regiões por dia para Amazon Nova 2 Omni | Cada região suportada: 11.520.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Amazon Nova 2 Omni. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência de modelos entre regiões por dia para o Amazon Nova 2 Pro Preview | Cada região compatível: 1.440.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Amazon Nova 2 Pro Preview. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Haiku 4.5 | Cada região suportada: 7.200.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência de modelo entre regiões por dia para Anthropic Claude Opus 4.5 | Cada região suportada: 2.880.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Opus 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência de modelo entre regiões por dia para Anthropic Claude Opus 4.6 V1 | me-central-1:2.880.000.000<br />Cada uma das outras regiões suportadas: 4.320.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Opus 4.6 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por dia para Anthropic Claude Opus 4.6 V1 1M Context Length | Cada região compatível: 1.440.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para Anthropic Claude Opus 4.6 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência de modelo entre regiões por dia para Anthropic Claude Opus 4.7 | Cada região suportada: 43.200.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Opus 4.7. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 288.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4.5 V1 | Cada região suportada: 7.200.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região compatível: 1.440.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência de modelo entre regiões por dia para o Anthropic Claude Sonnet 4.6 | me-central-1:7.200.000.000<br />Cada uma das outras regiões suportadas: 8.640.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.6. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por dia para Anthropic Claude Sonnet 4.6 1M Context Length | Cada região compatível: 1.440.000.000 | Não | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.6 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por dia para o Cohere Embed V4 | Cada região compatível: 432.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência de modelo entre regiões por minuto para o Amazon Nova 2 Lite | Cada região suportada: 8.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-71C69B70)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência do modelo global entre regiões por minuto para o Amazon Nova 2 Omni | Cada região suportada: 8.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-21800074)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens globais de inferência do modelo entre regiões por minuto para o Amazon Nova 2 Pro Preview | Cada região com suporte: 1.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6B796A8E)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Haiku 4.5 | Cada região compatível: 5.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9A11C666)  | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Opus 4.5 | Cada região compatível: 2.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3ABF6ACC)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Opus 4.6 V1 | me-central-1:2.000.000<br />Cada uma das outras regiões suportadas: 3.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3DCCFAA4)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Opus 4.6 V1 1M Context Length | Cada região com suporte: 1.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4C59C1F4)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para Anthropic Claude Opus 4.6 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Opus 4.7 | Cada região suportada: 30.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-34152C1D)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.7. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-97E41E39)  | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 | Cada região compatível: 5.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-27C57EE8)  | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região com suporte: 1.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4B26E44A)  | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência do modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.6 | me-central-1:5.000.000<br />Cada uma das outras regiões suportadas: 6.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7BEE40FB)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Sonnet 4.6 1M Context Length | Cada região com suporte: 1.000.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6955C77B)  | O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Tokens de inferência de modelo global entre regiões por minuto para o Cohere Embed V4 | Cada região compatível: 300.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-02DFBB76)  | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Modelos importados por conta | Cada região compatível: 3 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-45B04988)  | Número máximo de modelos importados em uma conta. | 
| Perfis de inferência por conta | Cada região com suporte: 1.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-40EC9882)  | Número máximo de perfis de inferência em uma conta. | 
| ListAgentActionGroups solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentActionGroups API por segundo. | 
| ListAgentAliases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentAliases API por segundo. | 
| ListAgentKnowledgeBases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentKnowledgeBases API por segundo. | 
| ListAgentVersions solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentVersions API por segundo. | 
| ListAgents solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgents API por segundo. | 
| Número mínimo de registros por trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1. | 
| Número mínimo de registros por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Haiku | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Haiku. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Opus | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Opus. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Sonnet | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Haiku | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Sonnet | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Sonnet v2 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.7 Sonnet | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BFA0FE84)  | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet. | 
| Número mínimo de registros por trabalho de inferência em lote para Claude Haiku 4.5 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Haiku 4.5. | 
| Número mínimo de registros por trabalho de inferência em lote para Claude Opus 4.5 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.5. | 
| Número mínimo de registros por trabalho de inferência em lote para Claude Opus 4.6 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.6. | 
| Número mínimo de registros por trabalho de inferência em lote para o Claude Sonnet 4 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F72F26EE)  | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4. | 
| Número mínimo de registros por tarefa de inferência em lote para Claude Sonnet 4.5. | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.5. | 
| Número mínimo de registros por tarefa de inferência em lote para Claude Sonnet 4.6 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.6. | 
| Número mínimo de registros por trabalho de inferência em lote para DeepSeek V3.2 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para DeepSeek V3.2. | 
| Número mínimo de registros por trabalho de inferência em lote para v3 DeepSeek  | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para a DeepSeek v3. | 
| Número mínimo de registros por trabalho de inferência em lote para Devstral 2 123B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Devstral 2 123B. | 
| Número mínimo de registros por trabalho de inferência em lote para o GLM 4.7 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7. | 
| Número mínimo de registros por tarefa de inferência em lote para o GLM 4.7 Flash | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7 Flash. | 
| Número mínimo de registros por trabalho de inferência em lote para o GLM 5 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 5. | 
| Número mínimo de registros por trabalho de inferência em lote para Gemma 3 12B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 12B. | 
| Número mínimo de registros por trabalho de inferência em lote para Gemma 3 27B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 27B. | 
| Número mínimo de registros por trabalho de inferência em lote para Gemma 3 4B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 4B. | 
| Número mínimo de registros por trabalho de inferência em lote para Kimi K2 Thinking | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Kimi K2 Thinking. | 
| Número mínimo de registros por trabalho de inferência em lote para Kimi K2.5 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para K2.5 Kimi. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 405B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 70B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 8B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 11B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 1B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 3B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.3 70B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. | 
| Número mínimo de registros por trabalho de inferência em lote para o Llama 4 Scout | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout. | 
| Número mínimo de registros por tarefa de inferência em lote para Magistral Small 2509 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Magistral Small 2509. | 
| Número mínimo de registros por trabalho de inferência em lote para MiniMax M2 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2. | 
| Número mínimo de registros por trabalho de inferência em lote para MiniMax M2.1 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.1. | 
| Número mínimo de registros por trabalho de inferência em lote para MiniMax M2.5 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.5. | 
| Número mínimo de registros por tarefa de inferência em lote para Ministral 3 14B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3 14B. | 
| Número mínimo de registros por tarefa de inferência em lote para Ministral 3 8B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3 8B. | 
| Número mínimo de registros por tarefa de inferência em lote para o Ministral 3B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3B. | 
| Número mínimo de registros por trabalho de inferência em lote para o Mistral Large 2 (24.07) | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07). | 
| Número mínimo de registros por trabalho de inferência em lote para Mistral Large 3 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Large 3. | 
| Número mínimo de registros por trabalho de inferência em lote para o Mistral Small | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small. | 
| Número mínimo de registros por tarefa de inferência em lote para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para NVIDIA Nemotron 3 Super 120B A12B. | 
| Número mínimo de registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 12B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 12B. | 
| Número mínimo de registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 3 30B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B. | 
| Número mínimo de registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 9B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B. | 
| Número mínimo de registros por trabalho de inferência em lote para Nova 2 Lite | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova 2 Lite. | 
| Número mínimo de registros por trabalho de inferência em lote para o Nova Lite V1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1. | 
| Número mínimo de registros por trabalho de inferência em lote para o Nova Micro V1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1. | 
| Número mínimo de registros por trabalho de inferência em lote para o Nova Pro V1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1. | 
| Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS 120b | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b. | 
| Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS 20b | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b. | 
| Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b. | 
| Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b. | 
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 235B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 235B. | 
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 32B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 32B. | 
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder 30B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B. | 
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder 480B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B. | 
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder Next | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder Next. | 
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Next 80B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Next 80B. | 
| Número mínimo de registros por tarefa de inferência em lote para Qwen3 VL 235B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 VL 235B. | 
| Número mínimo de registros por trabalho de inferência em lote para o Titan Multimodal Embeddings G1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. | 
| Número mínimo de registros por trabalho de inferência em lote para o Titan Text Embeddings V2 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. | 
| Número mínimo de registros por tarefa de inferência em lote para o Voxtral Mini 3B 2507 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Mini 3B 2507. | 
| Número mínimo de registros por tarefa de inferência em lote para o Voxtral Small 24B 2507 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Small 24B 2507. | 
| Número mínimo de registros por trabalho de inferência em lote para o Writer Palmyra Vision 7B | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Writer Palmyra Vision 7B. | 
| Modelo de tokens otimizados para latência máxima de invocação por dia para o Amazon Nova Pro V1 | Cada região suportada: 57.600.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo com latência otimizada em um dia para o Amazon Nova Pro V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Número máximo de tokens de invocação de modelos por dia para o AI21 Labs Jamba 1.5 Large (o dobro para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o AI21 Labs Jamba 1.5 Large. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o AI21 Labs Jamba 1.5 Mini (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o AI21 Labs Jamba 1.5 Mini. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Amazon Nova 2 Lite (o dobro para chamadas entre regiões) | Cada região compatível: 5.760.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Amazon Nova 2 Lite. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Amazon Nova 2 Omni (o dobro para chamadas entre regiões) | Cada região compatível: 5.760.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Amazon Nova 2 Omni. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Amazon Nova 2 Pro Preview (dobrado para chamadas entre regiões) | Cada região compatível: 720.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Amazon Nova 2 Pro Preview. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Amazon Nova Lite (o dobro para chamadas entre regiões) | Cada região compatível: 5.760.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Amazon Nova Lite. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Amazon Nova Micro (o dobro para chamadas entre regiões) | Cada região compatível: 5.760.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Amazon Nova Micro. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Amazon Nova Premier V1 (dobrado para chamadas entre regiões) | Cada região compatível: 1.440.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Amazon Nova Premier V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Amazon Nova Pro (o dobro para chamadas entre regiões) | Cada região compatível: 1.440.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Amazon Nova Pro. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Anthropic Claude 3 Haiku (dobrado para chamadas entre regiões) | us-east-1:2.880.000.000<br />us-west-2:2.880.000.000<br />ap-northeast-1:288.000.000<br />ap-southeast-1:288.000.000<br />Cada uma das outras regiões suportadas: 432.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Anthropic Claude 3 Haiku. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Anthropic Claude 3.5 Haiku (dobrado para chamadas entre regiões) | Cada região suportada: 2.880.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Anthropic Claude 3.5 Haiku. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Anthropic Claude 3.5 Sonnet V1 (dobrado para chamadas entre regiões) | Cada região suportada: 2.880.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Anthropic Claude 3.5 Sonnet V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Anthropic Claude 3.5 Sonnet V2 (dobrado para chamadas entre regiões) | us-east-1:2.880.000.000<br />us-west-2:2.880.000.000<br />Cada uma das outras regiões suportadas: 576.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Anthropic Claude 3.5 Sonnet V2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude 3.7 Sonnet V1 (dobrado para chamadas entre regiões) | Cada região compatível: 720.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude 3.7 Sonnet V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Haiku 4.5 (dobrado para chamadas entre regiões) | Cada região suportada: 3.600.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Haiku 4.5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Opus 4 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Opus 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Opus 4.1 (dobrado para chamadas entre regiões) | Cada região compatível: 360.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Opus 4.1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Anthropic Claude Opus 4.5 (dobrado para chamadas entre regiões) | Cada região compatível: 1.440.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Anthropic Claude Opus 4.5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Anthropic Claude Opus 4.6 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 2.160.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Anthropic Claude Opus 4.6 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Anthropic Claude Opus 4.7 (dobrado para chamadas entre regiões) | Cada região suportada: 21.600.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Anthropic Claude Opus 4.7. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4 V1 1M Context Length (dobrado para chamadas entre regiões) | Cada região compatível: 720.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4 V1 1M Context Length. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4.5 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 3.600.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4.5 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Máximo de tokens de invocação de modelo por dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length (dobrado para chamadas entre regiões) | Cada região compatível: 720.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Anthropic Claude Sonnet 4.6 (dobrado para chamadas entre regiões) | Cada região suportada: 4.320.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Anthropic Claude Sonnet 4.6. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Cohere Embed V4 (dobrado para chamadas entre regiões) | Cada região compatível: 216.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Cohere Embed V4. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para DeepSeek R1 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000 | Não | Tokens máximos diários para inferência de modelo para DeepSeek R1 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para DeepSeek V3 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para DeepSeek V3 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para DeepSeek V3.2 (o dobro para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para DeepSeek V3.2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o GPT OSS Safeguard 120B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o GPT OSS Safeguard 120B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o GPT OSS Safeguard 20B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o GPT OSS Safeguard 20B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Gemma 3 12B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Gemma 3 12B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Gemma 3 27B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Tokens máximos diários para inferência de modelo para Gemma 3 27B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Gemma 3 4B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Gemma 3 4B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Kimi K2 Thinking (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Kimi K2 Thinking. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Magistral Small 1.2 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Magistral Small 1.2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Meta Llama 3.2 11B Instruct (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Máximo diário de tokens para inferência de modelo para Meta Llama 3.2 11B Instruct. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Meta Llama 3.2 1B Instruct (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Máximo diário de tokens para inferência de modelo para Meta Llama 3.2 1B Instruct. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Meta Llama 3.2 3B Instruct (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Máximo diário de tokens para inferência de modelo para Meta Llama 3.2 3B Instruct. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Meta Llama 3.2 90B Instruct (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Máximo diário de tokens para inferência de modelo para Meta Llama 3.2 90B Instruct. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Meta Llama 4 Maverick V1 (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Máximo diário de tokens para inferência de modelo para Meta Llama 4 Maverick V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para Meta Llama 4 Scout V1 (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Máximo diário de tokens para inferência de modelo para Meta Llama 4 Scout V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para MiniMax M2.5 (o dobro para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para MiniMax M2.5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Minimax M2 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Minimax M2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Minimax M2.1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para M2.1 Minimax. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Ministral 14B 3.0 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Ministral 14B 3.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Ministral 3B 3.0 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Ministral 3B 3.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Ministral 8B 3.0 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Ministral 8B 3.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Mistral AI Mistral 7B Instruct (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Mistral AI Mistral 7B Instruct. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Mistral AI Mistral Large (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Mistral AI Mistral Large. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Mistral AI Mistral Small (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Mistral AI Mistral Small. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Mistral AI Mixtral 8X7B Instruct (dobrado para chamadas entre regiões) | Cada região compatível: 432.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Mistral AI Mixtral 8X7B Instruct. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Mistral Devstral 2 123b (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Tokens máximos diários para inferência de modelo para Mistral Devstral 2 123b. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Mistral Large 3 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Mistral Large 3. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Mistral Pixtral Large 25.02 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 57.600.000 | Não | Tokens máximos diários para inferência de modelo para Mistral Pixtral Large 25.02 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para Moonshot AI Kimi K2.5 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Moonshot AI Kimi. K2.5 Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para NVIDIA Nemotron 3 Super 120B A12B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelos para NVIDIA Nemotron 3 Super 120B A12B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação de modelos por dia para o NVIDIA Nemotron Nano 2 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelos para NVIDIA Nemotron Nano 2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para NVIDIA Nemotron Nano 2 VL (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelos para NVIDIA Nemotron Nano 2 VL. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Nemotron Nano 3 30B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Tokens máximos diários para inferência de modelo para Nemotron Nano 3 30B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o OpenAI GPT OSS 120B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o OpenAI GPT OSS 120B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o OpenAI GPT OSS 20B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o OpenAI GPT OSS 20B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Qwen3 235B a22b 2507 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo de tokens diários para inferência de modelo para o Qwen3 235B a22b 2507 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Tokens máximos de invocação de modelo por dia para o Qwen3 32B V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Qwen3 32B V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Máximo de tokens de invocação de modelo por dia para o Qwen3 Coder 30B a3b V1 (duplicado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo de tokens diários para inferência de modelo para o Qwen3 Coder 30B a3b V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Máximo de tokens de invocação de modelo por dia para o Qwen3 Coder 480B a35b V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo de tokens diários para inferência de modelo para o Qwen3 Coder 480B a35b V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Qwen3 Coder Next (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para o Qwen3 Coder Next. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Qwen3 Next 80B A3B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Qwen3 Next 80B A3B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Qwen3 VL 235B A22B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Tokens máximos diários para inferência de modelo para Qwen3 VL 235B A22B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Voxtral Mini 1.0 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Voxtral Mini 1.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Voxtral Small 1.0 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelo para o Voxtral Small 1.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Writer AI Palmyra X4 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 108.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Writer AI Palmyra X4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para o Writer AI Palmyra X5 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 108.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Writer AI Palmyra X5 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para o Writer Palmyra Vision 7B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para o Writer Palmyra Vision 7B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Z.ai GLM 5 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Tokens máximos diários para inferência de modelo para Z.ai GLM 5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Número máximo de tokens de invocação do modelo por dia para Z.ai GLM-4.7 (o dobro para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Z.ai GLM-4.7. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Modelo de tokens máximos de invocação por dia para Z.ai GLM-4.7 Flash (o dobro para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Z.ai GLM-4.7 Flash. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. | 
| Unidades de modelo para Throughputs provisionados sem compromisso entre modelos base | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FE44174A)  | Número máximo de unidades de modelo que podem ser distribuídas em Throughputs provisionados sem compromisso para modelos base | 
| Unidades de modelo para Throughputs provisionados sem compromisso entre modelos personalizados | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BE77399C)  | Número máximo de unidades de modelo que podem ser distribuídas em Throughputs provisionados sem compromisso para modelos personalizados | 
| Unidades de modelo por modelo provisionado para AI21 Labs Mid Jurassic-2  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9342B636)  | O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o AI21 Labs Mid. Jurassic-2  | 
| Unidades de modelo por modelo provisionado para AI21 Labs Ultra Jurassic-2  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3F0ECEDC)  | O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o AI21 Labs Ultra. Jurassic-2  | 
| Unidades de modelo por modelo provisionado para Amazon Nova 2 Lite 256K V1.0  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-07D3BCF0)  | O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Nova 2 Lite 256K. V1.0  | 
| Unidades de modelo por modelo provisionado para o Amazon Nova Canvas | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FD4A6FF9)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Nova Canvas. | 
| Unidades de modelo por modelo provisionado para o Amazon Titan Embeddings G1 - Text | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F879F645)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Embeddings G1 - Text. | 
| Unidades de modelo por modelo provisionado para o Gerador de Imagens do Amazon Titan G1 | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F424A1E3)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Gerador de Imagens do Amazon Titan G1. | 
| Unidades de modelo por modelo provisionado para o Gerador de Imagens do Amazon Titan G2 | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-92F8A601)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Gerador de Imagens do Amazon Titan G2. | 
| Unidades de modelo por modelo provisionado para o Amazon Titan Lite V1 4K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A4EBFDE7)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Lite V1 4K. | 
| Unidades de modelo por modelo provisionado para o Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-32F732DE)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Multimodal Embeddings G1. | 
| Unidades de modelo por modelo provisionado para o Amazon Titan Text Embeddings V2 | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1074C53D)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Embeddings V2. | 
| Unidades de modelo por modelo provisionado para o Amazon Titan Text G1 - Express 8K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8129BF10)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text G1 - Express 8K. | 
| Unidades de modelo por modelo provisionado para o Amazon Titan Text Premier V1 32K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5056051A)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Premier V1 32K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Haiku 200K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EF415EF6)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Haiku 200K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Haiku 48K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3BE61D60)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Haiku 48K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Sonnet 200K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1F7657F1)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Sonnet 200K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Sonnet 28K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B3C19043)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Sonnet 28K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 16K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D3E17A13)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 16K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 200K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-921A310E)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 200K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 64K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-43CD2FD9)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 64K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 18K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-259C746F)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 18K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 200K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-2590C31B)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 200K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 51K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-208A3F5C)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 51K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 18K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-02710C34)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 18K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 200K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-24060791)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 200K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 51K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B2718619)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 51K. | 
| Unidades modelo por modelo provisionado para Anthropic Claude 3.7 Sonnet 18K V1.0  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D09F1612)  | O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.7 Sonnet 18K. V1.0  | 
| Unidades modelo por modelo provisionado para Anthropic Claude 3.7 Sonnet 200K V1.0  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F4131C39)  | O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.7 Sonnet 200K. V1.0  | 
| Unidades modelo por modelo provisionado para Anthropic Claude 3.7 Sonnet 51K V1.0  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0B0CDE73)  | O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.7 Sonnet 51K. V1.0  | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude Instant V1 100K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4A6D2F15)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude Instant V1 100K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude V2 100K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C4522D0D)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2 100K. | 
| Unidades de modelo por modelo provisionado para o Anthropic Claude V2 18K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-73573F44)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2 18K. | 
| Unidades modelo por modelo provisionado para Anthropic Claude 18K V2.1  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7478F443)  | O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 18K. V2.1  | 
| Unidades modelo por modelo provisionado para Anthropic Claude 200K V2.1  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A63633C5)  | O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 200K. V2.1  | 
| Unidades de modelo por modelo provisionado para o Cohere Command | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5E29F315)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command. | 
| Unidades de modelo por modelo provisionado para o Cohere Command Light | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-01F37E14)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command Light. | 
| Unidades de modelo por modelo provisionado para o Cohere Command R | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F2469446)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command R 128k. | 
| Unidades de modelo por modelo provisionado para o Cohere Command R Plus | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C549AE85)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command R Plus 128k. | 
| Unidades de modelo por modelo provisionado para o Cohere Embed English | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-97A8CC77)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Embed English. | 
| Unidades de modelo por modelo provisionado para o Cohere Embed Multilingual | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1870BD3C)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Embed Multilingual. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 2 13B | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-268D592E)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 13B. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 2 70B | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-2EBEF050)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 70B. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 2 Chat 13B | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AC6F8476)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 Chat 13B. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 2 Chat 70B | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E953E4AB)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 Chat 70B. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3 70B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B3049E9B)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3 70B Instruct. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3 8B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-16711FC4)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3 8B Instruct. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3.1 70B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DD7903AD)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.1 70B Instruct. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3.1 8B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3632DE15)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.1 8B Instruct. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 11B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1679CB40)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 11B Instruct. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 1B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B547321D)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 1B Instruct. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 3B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-12E68701)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 3B Instruct. | 
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 90B Instruct | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DEE3A9C7)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 90B Instruct. | 
| Unidades de modelo por modelo provisionado para o Mistral Large 2407 | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-697D688A)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Mistral Large 2407. | 
| Unidades de modelo por modelo provisionado para o Mistral Small | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7A8639EE)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Mistral Small. | 
| Unidades de modelo por modelo provisionado para Stability.ai Stable Diffusion XL 0.8 | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-240F3183)  | O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para Stable Diffusion XL 0.8 Stability.ai  | 
| Unidades de modelo por modelo provisionado para Stability.ai Stable Diffusion XL 1.0 | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9149A536)  | O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Stability.ai Stable Diffusion XL 1.0. | 
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 128k para o Amazon Nova Micro | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AC096F71)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 128k para o Amazon Nova Micro | 
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4532261E)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite | 
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Micro  | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E0B2EE2A)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Micro | 
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Pro | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9C8C5911)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Pro | 
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Lite | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-127FC9D0)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Lite | 
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Pro | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E48B7984)  | Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Pro. | 
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Llama 4 Scout 17B Instruct 10M | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0D70E8DA)  | Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Scout 17B Instruct 10M, com compromisso. | 
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Llama 4 Scout 17B Instruct 128 K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D682535A)  | Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Scout 17B Instruct 128 K, com compromisso. | 
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Maverick 4 Scout 17B Instruct 128 K | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7C435546)  | Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Maverick 17B Instruct 128 K, com compromisso. | 
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Maverick 4 Scout 17B Instruct 1M | Cada região compatível: 0 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8574D065)  | Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Maverick 17B Instruct 1M, com compromisso. | 
| No-commitment unidades modelo para taxa de transferência provisionada criadas para o modelo básico Amazon Nova 2 Lite 256K V1.0  | Cada região compatível: 0 | Não | O número máximo de unidades de modelo que podem ser alocadas para uma taxa de transferência provisionada criada para o modelo básico Amazon Nova 2 Lite V1.0 256K, sem compromisso | 
| No-commitment unidades modelo para taxa de transferência provisionada criadas para o modelo personalizado Amazon Nova 2 Lite 256K V1.0  | Cada região compatível: 0 | Não | O número máximo de unidades de modelo que podem ser alocadas a uma taxa de transferência provisionada criada para o modelo personalizado Amazon Nova 2 Lite V1.0 256K, sem compromisso. | 
| Número de roteadores de prompts personalizados por conta | Cada região com suporte: 500 | Não | Número máximo de roteadores de prompts personalizados que você pode criar por conta e por região. | 
| On-Demand, solicitações de inferência de modelo otimizadas para latência por minuto para o Amazon Nova Pro V1 | Cada região com suporte: 10 | Não | O número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-Demand, solicitações de inferência de modelo otimizadas para latência por minuto para Meta Llama 3.1 405B Instruct | Cada região compatível: 100 | Não | Número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-Demand, solicitações de inferência de modelo otimizadas para latência por minuto para Meta Llama 3.1 70B Instruct | Cada região compatível: 100 | Não | Número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-Demand, tokens de inferência de modelo otimizados para latência por minuto para o Amazon Nova Pro V1 | Cada região compatível: 40.000 | Não | O número máximo de tokens sob demanda e otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-Demand, tokens de inferência de modelo otimizados para latência por minuto para Meta Llama 3.1 405B Instruct | Cada região compatível: 40.000 | Não | Número máximo de tokens sob demanda otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-Demand, tokens de inferência de modelo otimizados para latência por minuto para Meta Llama 3.1 70B Instruct | Cada região compatível: 40.000 | Não | Número máximo de tokens sob demanda otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand InvokeModel solicitações simultâneas assíncronas para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 30 | Não | Número máximo de solicitações de inferência de modelo simultâneas assíncronas que você pode enviar para o Amazon Nova 2 Multimodal Embeddings V1. A cota considera a soma combinada de Converse, ConverseStream InvokeModel, e. InvokeModelWithResponseStream | 
| On-demand InvokeModel solicitações simultâneas assíncronas para TwelveLabs Marengo Embed 3.0 | Cada região com suporte: 10 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BC3096B9)  | O número máximo de solicitações de inferência de modelo simultâneo assíncrono que você pode enviar para TwelveLabs o Marengo Embed 3.0. A cota considera a soma combinada de Converse, ConverseStream InvokeModel, e. InvokeModelWithResponseStream | 
| On-demand InvokeModel solicitações simultâneas para Amazon Nova 2 Sonic | Cada região compatível: 20 | Não | O número máximo de solicitações de inferência de modelos simultâneos que você pode enviar para o Amazon Nova 2 Sonic. A cota considera a soma combinada de Converse, ConverseStream InvokeModel, e. InvokeModelWithResponseStream | 
| On-demand InvokeModel solicitações simultâneas para o Amazon Nova Reel1.0 | Cada região com suporte: 10 | Não | Número máximo de solicitações de inferência de modelo simultâneas que você pode enviar para o Amazon Nova Reel 1.0. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand InvokeModel solicitações simultâneas para o Amazon Nova Reel1.1 | Cada região compatível: 3 | Não | Número máximo de solicitações de inferência de modelo simultâneas que você pode enviar para o Amazon Nova Reel 1.1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand InvokeModel solicitações simultâneas para Amazon Nova Sonic | Cada região compatível: 20 | Não | Número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Amazon Nova Sonic. | 
| On-demand InvokeModel solicitações simultâneas para Twelve Labs Marengo | Cada região compatível: 30 | Não | O número máximo de InvokeModel solicitações simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Marengo. | 
| On-demand InvokeModel solicitações simultâneas para Twelve Labs Pegasus | Cada região compatível: 30 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CABD464E)  | O número máximo de InvokeModel solicitações simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Pegasus. | 
| On-demand solicitações de inferência de modelo otimizado para latência por minuto para Anthropic Claude 3.5 Haiku | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3.5 Haiku, se a otimização da latência estiver configurada. | 
| On-demand tokens de inferência de modelo otimizados para latência por minuto para Anthropic Claude 3.5 Haiku | Cada região compatível: 500.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3.5 Haiku ConverseStream, se a otimização da latência estiver configurada. | 
| On-demand solicitações simultâneas de inferência de modelo para Luma Ray V2 | Cada região compatível: 1 | Não | Número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Luma Ray V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand solicitações de inferência de modelo por minuto para o AI21 Labs Jamba 1.5 Large | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada de solicitações para Converse e InvokeModel | 
| On-demand solicitações de inferência de modelo por minuto para o AI21 Labs Jamba 1.5 Mini | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada de solicitações para Converse e InvokeModel | 
| On-demand solicitações de inferência de modelos por minuto para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 2.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Multimodal Embeddings V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Nova Canvas | Cada região compatível: 100 | Não | Número máximo de solicitações que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Canvas. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Nova Lite | us-east-1: 2.000<br />eu-west-2:2.000<br />Cada uma das outras regiões compatíveis: 200 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Nova Micro | us-east-1: 2.000<br />eu-west-2:2.000<br />Cada uma das outras regiões compatíveis: 200 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Nova Pro | Cada região compatível: 250 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Rerank 1.0 | Cada região compatível: 200 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Rerank 1.0. | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Titan Image Generator G1 | Cada região compatível: 60 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Image Generator G1. | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Titan Image Generator G1 V2 | Cada região compatível: 60 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gerador de Imagens do Amazon Titan G1 V2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1. | 
| On-demand solicitações de inferência de modelos por minuto para Amazon Titan Text Embeddings | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para Amazon Titan Text Embeddings | 
| On-demand solicitações de inferência de modelos por minuto para Amazon Titan Text Embeddings V2 | Cada região compatível: 6.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Text Embeddings V2 | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Titan Text Express | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Express | 
| On-demand solicitações de inferência de modelos por minuto para o Amazon Titan Text Premier | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Premier | 
| On-demand solicitações de inferência de modelos por minuto para Anthropic Claude 3 Haiku | us-east-1: 1.000<br />us-west-2: 1.000<br />ap-northeast-1:200<br />ap-southeast-1 ap-southeast-1:200<br />Cada uma das outras regiões suportadas: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Haiku. | 
| On-demand solicitações de inferência de modelo por minuto para Anthropic Claude 3 Opus | Cada região compatível: 50 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Anthropic Claude 3 Sonnet | us-east-1: 500<br />us-west-2: 500<br />Cada uma das outras regiões compatíveis: 100 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet. | 
| On-demand solicitações de inferência de modelos por minuto para Anthropic Claude 3.5 Haiku | us-west-1:400<br />Cada uma das outras regiões compatíveis: 1.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Anthropic Claude 3.5 Sonnet | us-west-2:250<br />ap-northeast-1:20<br />ap-southeast-1 ap-southeast-1:20<br />eu-central-1:20<br />eu-west-1: 20<br />eu-west-3:20<br />Cada uma das outras regiões compatíveis: 50 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand solicitações de inferência de modelo por minuto para Anthropic Claude 3.5 Sonnet V2 | us-west-2:250<br />Cada uma das outras regiões compatíveis: 50 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand solicitações de inferência de modelo por minuto para Anthropic Claude 3.7 Sonnet V1 | Cada região compatível: 125 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Anthropic Claude Opus 4.6 V1 | Cada região com suporte: 5.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Anthropic Claude Sonnet 4.6 | Cada região com suporte: 5.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para o Cohere Command R | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command R 128k. | 
| On-demand solicitações de inferência de modelo por minuto para o Cohere Command R Plus | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command R Plus 128k. | 
| On-demand solicitações de inferência de modelos por minuto para o Cohere Embed English | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Embed English. | 
| On-demand modelar solicitações de inferência por minuto para o Cohere Embed Multilingual | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Embed Multilingual. | 
| On-demand solicitações de inferência de modelo por minuto para o Cohere Embed V4 | Cada região com suporte: 1.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para o Cohere Rerank 3.5 | Cada região compatível: 250 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Rerank 3.5. | 
| On-demand solicitações de inferência de modelos por minuto para DeepSeek V3 V1 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para a V3 DeepSeek V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para DeepSeek V3.2 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto. DeepSeek V3.2 Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o GPT OSS Safeguard 120B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 120B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o GPT OSS Safeguard 20B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 20B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Gemma 3 12B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 12B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Gemma 3 27B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 27B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Gemma 3 4B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 4B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Kimi K2 Thinking | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Kimi K2 Thinking. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand modelo de solicitações de inferência por minuto para Magistral Small 1.2 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Magistral Small 1.2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Meta Llama 3 70B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Meta Llama 3 8B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Meta Llama 3.1 405B Instruct | Cada região compatível: 200 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Meta Llama 3.1 70B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Meta Llama 3.2 11B Instruct | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| On-demand solicitações de inferência de modelo por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 800 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| On-demand solicitações de inferência de modelo por minuto para o Meta Llama 3.2 90B Instruct | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| On-demand solicitações de inferência de modelo por minuto para Meta Llama 3.3 70B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para MiniMax M2.5 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto. MiniMax M2.5 Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Minimax M2 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax M2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Minimax M2.1 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax. M2.1 Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Ministral 14B 3.0 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 14B 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Ministral 3B 3.0 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 3B 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Ministral 8B 3.0 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 8B 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Mistral 7B Instruct | Cada região compatível: 800 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para Mistral mistral-7b-instruct-v0 | 
| On-demand solicitações de inferência de modelo por minuto para Mistral AI Mistral Small | Cada região compatível: 400 | Não | O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto para Mistral AI Mistral Small | 
| On-demand solicitações de inferência de modelo por minuto para Mistral Devstral 2 123b | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Devstral 2 123b. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Mistral Large | Cada região compatível: 400 | Não | O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto para Mistral mistral-large-2402-v1 | 
| On-demand solicitações de inferência de modelo por minuto para Mistral Large 2407 | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream | 
| On-demand solicitações de inferência de modelo por minuto para Mistral Large 3 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Large 3. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Mistral Mixtral 8x7b Instruct | Cada região compatível: 400 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para Mistral mixtral-8x7b-v0 | 
| On-demand solicitações de inferência de modelo por minuto para Moonshot AI Kimi K2.5 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Moonshot AI Kimi. K2.5 Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron 3 Super 120B A12B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para NVIDIA Nemotron Nano 2 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para NVIDIA Nemotron Nano 2 VL | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2 VL. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Nemotron Nano 3 30B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Nemotron Nano 3 30B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para OpenAI GPT OSS 120B | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para OpenAI GPT OSS 20B | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Qwen3 235B a22b 2507 V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 235B a22b 2507 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Qwen3 32B V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 32B V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Qwen3 Coder 30B a3b V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 30B a3b V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Qwen3 Coder 480B a35b V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 480B a35b V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Qwen3 Coder Next | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder Next. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Qwen3 Next 80B A3B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Next 80B A3B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Qwen3 VL 235B A22B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 VL 235B A22B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para Stability.ai Stable Diffusion 3 Large | Cada região compatível: 15 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Large. | 
| On-demand solicitações de inferência de modelo por minuto para Stability.ai Stable Diffusion 3 Medium | Cada região compatível: 60 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Medium | 
| On-demand solicitações de inferência de modelos por minuto para Stability.ai Stable Diffusion 3.5 Large | Cada região compatível: 15 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3.5 Large. | 
| On-demand solicitações de inferência de modelos por minuto para o Stability.ai Stable Image Core | Cada região compatível: 90 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Image Core. | 
| On-demand solicitações de inferência de modelo por minuto para Stability.ai Stable Image Ultra | Cada região com suporte: 10 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Image Ultra. | 
| On-demand solicitações de inferência de modelos por minuto para Stable Image Conservative Upscale | Cada região compatível: 2 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Conservative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Stable Image Control Sketch | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Sketch. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para uma estrutura de controle de imagem estável | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Structure. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Stable Image Creative Upscale | Cada região compatível: 2 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para objeto de apagamento de imagem estável | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Erase Object. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para Stable Image Fast Upscale | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Stable Image Inpaint | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Inpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Stable Image Outpaint | Cada região compatível: 2 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Outpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Stable Image Remover Background | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Remove Background. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para pesquisa e recoloração estáveis de imagens | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Search e o Recolor. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para pesquisa e substituição de imagens estáveis | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Replace. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Stable Image Style Guide | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Guide. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para transferência estável de estilo de imagem | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Transfer. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para Twelve Labs Marengo | Cada região compatível: 100 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Marengo. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Twelve Labs Pegasus | Cada região compatível: 60 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5E8692C5)  | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand solicitações de inferência de modelo por minuto para o TwelveLabs Marengo Embed 3.0 | Cada região com suporte: 500 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8CBCC2C0)  | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o TwelveLabs Marengo Embed 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Voxtral Mini 1.0 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Mini 1.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Voxtral Small 1.0 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Small 1.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para o Writer Palmyra Vision 7B | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Writer Palmyra Vision 7B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelo por minuto para Z.ai GLM 5 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Z.ai GLM 5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para Z.ai GLM-4.7 | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto. Z.ai GLM-4.7 Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand solicitações de inferência de modelos por minuto para Flash Z.ai GLM-4.7  | Cada região compatível: 10.000 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para Z.ai GLM-4.7 o Flash. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream  | 
| On-demand tokens de inferência de modelo por minuto para o AI21 Labs Jamba 1.5 Large | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse e. InvokeModel | 
| On-demand tokens de inferência de modelo por minuto para o AI21 Labs Jamba 1.5 Mini | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse e. InvokeModel | 
| On-demand tokens de inferência de modelo por minuto para o Amazon Nova Lite | us-east-1: 4,000,000<br />eu-west-2: 4.000.000<br />Cada uma das outras regiões suportadas: 200.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Amazon Nova Micro | us-east-1: 4,000,000<br />eu-west-2: 4.000.000<br />Cada uma das outras regiões suportadas: 200.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Amazon Nova Pro | Cada região com suporte: 1.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Amazon Titan Image Generator G1 V2 | Cada região compatível: 2.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gerador de Imagens do Amazon Titan G1 V2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1. | 
| On-demand tokens de inferência de modelos por minuto para Amazon Titan Text Embeddings | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para Amazon Titan Text Embeddings. | 
| On-demand tokens de inferência de modelo por minuto para Amazon Titan Text Embeddings V2 | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Text Embeddings V2. | 
| On-demand tokens de inferência de modelo por minuto para o Amazon Titan Text Express | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Express. ConverseStream | 
| On-demand tokens de inferência de modelo por minuto para o Amazon Titan Text Premier | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Premier. ConverseStream | 
| On-demand modele tokens de inferência por minuto para Anthropic Claude 3 Haiku | us-east-1: 2,000,000<br />us-west-2: 2,000,000<br />ap-northeast-1 ap-northeast-1:200.000<br />ap-southeast-1 ap-southeast-1:200.000<br />Cada uma das outras regiões suportadas: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3 Haiku. ConverseStream | 
| On-demand tokens de inferência de modelo por minuto para Anthropic Claude 3 Opus | Cada região compatível: 400.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Anthropic Claude 3 Sonnet | us-east-1: 1,000,000<br />us-west-2: 1,000,000<br />Cada uma das outras regiões suportadas: 200.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. ConverseStream | 
| On-demand modelos de tokens de inferência por minuto para Anthropic Claude 3.5 Haiku | us-west-1:300.000<br />Cada uma das outras regiões suportadas: 2.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Anthropic Claude 3.5 Sonnet | us-west-2: 2,000,000<br />ap-northeast-1 ap-northeast-1:200.000<br />ap-southeast-1 ap-southeast-1:200.000<br />eu-central-1:200.000<br />eu-west-1:200.000<br />eu-west-3:200.000<br />Cada uma das outras regiões suportadas: 400.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Anthropic Claude 3.5 Sonnet V2 | us-west-2: 2,000,000<br />Cada uma das outras regiões suportadas: 400.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Anthropic Claude 3.7 Sonnet V1 | Cada região compatível: 500.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Anthropic Claude Opus 4.6 V1 | Cada região compatível: 1.500.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Anthropic Claude Sonnet 4.6 | Cada região compatível: 3.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand modelar tokens de inferência por minuto para o Cohere Command R | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o ConverseStream Cohere Command R 128k. | 
| On-demand tokens de inferência de modelo por minuto para o Cohere Command R Plus | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o ConverseStream Cohere Command R Plus 128k. | 
| On-demand tokens de inferência de modelo por minuto para Cohere Embed English | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Cohere Embed English. | 
| On-demand modele tokens de inferência por minuto para Cohere Embed Multilingual | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Cohere Embed Multilingual. | 
| On-demand tokens de inferência de modelo por minuto para Cohere Embed V4 | Cada região compatível: 150.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para DeepSeek V3 V1 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para DeepSeek V3 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand modelar tokens de inferência por minuto para DeepSeek V3.2 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. DeepSeek V3.2 A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o GPT OSS Safeguard 120B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 120B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o GPT OSS Safeguard 20B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 20B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Gemma 3 12B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 12B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Gemma 3 27B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 27B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Gemma 3 4B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 4B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Kimi K2 Thinking | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Kimi K2 Thinking. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Magistral Small 1.2 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Magistral Small 1.2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3 70B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3 8B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.1 405B Instruct | Cada região compatível: 400.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.1 70B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.1 8B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.2 11B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.2 1B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.2 3B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.2 90B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream | 
| On-demand tokens de inferência de modelo por minuto para Meta Llama 3.3 70B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand modelar tokens de inferência por minuto para MiniMax M2.5 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. MiniMax M2.5 A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Minimax M2 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax M2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Minimax M2.1 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax. M2.1 A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Ministral 14B 3.0 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 14B 3.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Ministral 3B 3.0 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 3B 3.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Ministral 8B 3.0 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 8B 3.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Mistral AI Mistral 7B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o Mistral AI Mistral InvokeModelWithResponseStream 7B Instruct. ConverseStream | 
| On-demand tokens de inferência de modelo por minuto para Mistral AI Mistral Large | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para Mistral ConverseStream AI Mistral Large. | 
| On-demand tokens de inferência de modelo por minuto para Mistral AI Mistral Small | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para Mistral ConverseStream AI Mistral Small. | 
| On-demand tokens de inferência de modelo por minuto para Mistral AI Mixtral 8X7BB Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse e para o Mistral AI ConverseStream Mixtral InvokeModel InvokeModelWithResponseStream 8X7B Instruct. | 
| On-demand tokens de inferência de modelo por minuto para Mistral Devstral 2 123b | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Devstral 2 123b. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Mistral Large 2407 | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream | 
| On-demand tokens de inferência de modelo por minuto para Mistral Large 3 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Large 3. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Moonshot AI Kimi K2.5 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Moonshot AI Kimi. K2.5 A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron 3 Super 120B A12B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para NVIDIA Nemotron Nano 2 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para NVIDIA Nemotron Nano 2 VL | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2 VL. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Nemotron Nano 3 30B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Nemotron Nano 3 30B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para OpenAI GPT OSS 120B | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para OpenAI GPT OSS 20B | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Qwen3 235B a22b 2507 V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 235B a22b 2507 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Qwen3 32B V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 32B V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Qwen3 Coder 30B a3b V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 30B a3b V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Qwen3 Coder 480B a35b V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 480B a35b V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Qwen3 Coder Next | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder Next. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Qwen3 Next 80B A3B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Next 80B A3B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Qwen3 VL 235B A22B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 VL 235B A22B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Voxtral Mini 1.0 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Mini 1.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Voxtral Small 1.0 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Small 1.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para o Writer Palmyra Vision 7B | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Writer Palmyra Vision 7B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand tokens de inferência de modelo por minuto para Z.ai GLM 5 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Z.ai GLM 5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand modelar tokens de inferência por minuto para Z.ai GLM-4.7 | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. Z.ai GLM-4.7 A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| On-demand modelar tokens de inferência por minuto para Flash Z.ai GLM-4.7  | Cada região compatível: 100.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para Z.ai GLM-4.7 o Flash. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream | 
| Parâmetros por função | Cada região compatível: 5 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4B4330A0)  | Número máximo de parâmetros que você pode ter em uma função de grupo de ações. | 
| PrepareAgent solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de PrepareAgent API por segundo. | 
| Registros por trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7DCA4380)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1. | 
| Registros por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-131D4EED)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. | 
| Registros por trabalho de inferência em lote para o Claude 3 Haiku | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1F644C2A)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Haiku. | 
| Registros por trabalho de inferência em lote para o Claude 3 Opus | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E8FA49DB)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Opus. | 
| Registros por trabalho de inferência em lote para o Claude 3 Sonnet | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-16E25672)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. | 
| Registros por trabalho de inferência em lote para o Claude 3.5 Haiku | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-274AA31F)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku. | 
| Registros por trabalho de inferência em lote para o Claude 3.5 Sonnet | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1E2B9998)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. | 
| Registros por trabalho de inferência em lote para o Claude 3.5 Sonnet v2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6EBFEB27)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. | 
| Registros por trabalho de inferência em lote para o Claude 3.7 Sonnet | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FABEE48F)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet. | 
| Registros por trabalho de inferência em lote para Claude Haiku 4.5 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-28612175)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Haiku 4.5. | 
| Registros por trabalho de inferência em lote para Claude Opus 4.5 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-2767B9A9)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.5. | 
| Registros por trabalho de inferência em lote para Claude Opus 4.6 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9AA02BEF)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.6. | 
| Registros por trabalho de inferência em lote para o Claude Sonnet 4 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8A6B31EE)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4. | 
| Registros por trabalho de inferência em lote para Claude Sonnet 4.5 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FFFEDD8D)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.5. | 
| Trabalho de inferência de registros por lote para Claude Sonnet 4.6 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-01A2DC4B)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.6. | 
| Registros por trabalho de inferência em lote para DeepSeek V3.2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-73951D97)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para DeepSeek V3.2. | 
| Registros por tarefa de inferência em lote para v3 DeepSeek  | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-35900968)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para a DeepSeek v3. | 
| Registros por tarefa de inferência em lote para Devstral 2 123B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-11C1CE94)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Devstral 2 123B. | 
| Registros por tarefa de inferência em lote para o GLM 4.7 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-ECA45411)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7. | 
| Registros por tarefa de inferência em lote para o GLM 4.7 Flash | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BB255931)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7 Flash. | 
| Registros por tarefa de inferência em lote para GLM 5 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-64CF3679)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 5. | 
| Registros por tarefa de inferência em lote para Gemma 3 12B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5A51050A)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 12B. | 
| Registros por trabalho de inferência em lote para Gemma 3 27B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-ECD87E6C)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 27B. | 
| Registros por trabalho de inferência em lote para Gemma 3 4B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E1D21B18)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 4B. | 
| Trabalho de inferência de registros por lote para Kimi K2 Thinking | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CEEE0EE8)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Kimi K2 Thinking. | 
| Registros por trabalho de inferência em lote para Kimi K2.5 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-63010E1B)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para K2.5 Kimi. | 
| Registros por trabalho de inferência em lote para o Llama 3.1 405B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AA411D03)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. | 
| Registros por trabalho de inferência em lote para Llama 3.1 70B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8D07E980)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. | 
| Registros por trabalho de inferência em lote para o Llama 3.1 8B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FA06C205)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. | 
| Registros por trabalho de inferência em lote para a Llama 3.2 11B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-95CACD43)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. | 
| Registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FF73AE42)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote Llama 3.2 1B Instruct. | 
| Registros por trabalho de inferência em lote para a Llama 3.2 3B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-982DE2DB)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. | 
| Registros por trabalho de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4821684D)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. | 
| Registros por trabalho de inferência em lote para Llama 3.3 70B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E293C7C7)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. | 
| Registros por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6FAB43BE)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. | 
| Registros por trabalho de inferência em lote para o Llama 4 Scout | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D41E62E4)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout. | 
| Registros por tarefa de inferência de lote para Magistral Small 2509 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-78C12D54)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Magistral Small 2509. | 
| Registros por tarefa de inferência em lote para MiniMax M2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CDF99FD2)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2. | 
| Registros por trabalho de inferência em lote para MiniMax M2.1 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4D2272DC)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.1. | 
| Registros por trabalho de inferência em lote para MiniMax M2.5 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C4659D61)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.5. | 
| Registros por tarefa de inferência em lote para Ministral 3 14B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DBFC8DC8)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3 14B. | 
| Registros por tarefa de inferência em lote para Ministral 3 8B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1F923A43)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3 8B. | 
| Registros por tarefa de inferência em lote para o Ministral 3B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1AD2F2A2)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3B. | 
| Registros por trabalho de inferência em lote para o Mistral Large 2 (24.07) | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CA80888F)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07). | 
| Registros por trabalho de inferência em lote para Mistral Large 3 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-90807536)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Mistral Large 3. | 
| Registros por trabalho de inferência em lote para o Mistral Small | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-072E11FC)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small. | 
| Registros por trabalho de inferência em lote para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-196A63C0)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para NVIDIA Nemotron 3 Super 120B A12B. | 
| Registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 12B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-214BEB81)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 12B. | 
| Registros por trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-87934C8F)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B. | 
| Registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 9B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5325EC5D)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B. | 
| Registros por trabalho de inferência em lote para Nova 2 Lite | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-ECCE76C6)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova 2 Lite. | 
| Registros por trabalho de inferência em lote para o Nova Lite V1 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-916C9264)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1. | 
| Registros por trabalho de inferência em lote para a Nova Micro V1 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-57DC56A1)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1. | 
| Registros por trabalho de inferência em lote para o Nova Pro V1 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-89197AE6)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1. | 
| Registros por trabalho de inferência em lote para o OpenAI GPT OSS 120b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3C5D1B25)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b. | 
| Registros por trabalho de inferência em lote para o OpenAI GPT OSS 20b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F361DF0F)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b. | 
| Registros por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 120b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1D2360E7)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b. | 
| Registros por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 20b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-142AED8F)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b. | 
| Registros por trabalho de inferência em lote para o Qwen3 235B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C19807B8)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 235B. | 
| Registros por trabalho de inferência em lote para o Qwen3 32B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DF5FF3C8)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 32B. | 
| Registros por trabalho de inferência em lote para o Qwen3 Coder 30B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-38EFD889)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B. | 
| Registros por trabalho de inferência em lote para o Qwen3 Coder 480B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BF9B3702)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B. | 
| Registros por trabalho de inferência em lote para o Qwen3 Coder Next | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-273728E2)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder Next. | 
| Registros por trabalho de inferência em lote para o Qwen3 Next 80B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-320BE465)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Next 80B. | 
| Registros por trabalho de inferência em lote para Qwen3 VL 235B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1F7ACACC)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 VL 235B. | 
| Registros por trabalho de inferência em lote para o Titan Multimodal Embeddings G1 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3BD2251E)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. | 
| Registros por trabalho de inferência em lote para o Titan Text Embeddings V2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AAC5F6D6)  | Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. | 
| Registros por trabalho de inferência em lote para o Voxtral Mini 3B 2507 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-CD4E1CD6)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Mini 3B 2507. | 
| Registros por tarefa de inferência em lote para o Voxtral Small 24B 2507 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FE086D36)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Small 24B 2507. | 
| Trabalho de inferência de registros por lote para o Writer Palmyra Vision 7B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-121F4E1E)  | O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Writer Palmyra Vision 7B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7EAC9E78)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-169A395B)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Haiku | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EBB72C32)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Haiku. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Opus | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-642905B5)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Opus. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Sonnet | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E93C745B)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Haiku | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C39B6D57)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Sonnet | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5AB0EE48)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Sonnet v2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-897F8151)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.7 Sonnet | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A985813D)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Claude Haiku 4.5 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9EDE6039)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude Haiku 4.5. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Claude Opus 4.5 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F7440010)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude Opus 4.5. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Claude Opus 4.6 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D8E451A7)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude Opus 4.6. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Claude Sonnet 4 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-02DB18B4)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude Sonnet 4. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Claude Sonnet 4.5 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4DFF050E)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.5. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para Claude Sonnet 4.6 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-391CEF89)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.6. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para DeepSeek V3.2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9E38DD81)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para DeepSeek V3.2. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para v3 DeepSeek  | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-48DD3868)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para a DeepSeek v3. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Devstral 2 123B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-92349F9F)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Devstral 2 123B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o GLM 4.7 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7BE9625C)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o GLM 4.7. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para o GLM 4.7 Flash | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8CE8B022)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o GLM 4.7 Flash. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para o GLM 5 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8A232422)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o GLM 5. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Gemma 3 12B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-114ABFC3)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Gemma 3 12B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Gemma 3 27B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FD7B3EB8)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Gemma 3 27B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Gemma 3 4B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-65D1D550)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Gemma 3 4B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Kimi K2 Thinking | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-852FB779)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Kimi K2 Thinking. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Kimi K2.5 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-15B51EC1)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para K2.5 Kimi. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 405B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8651ED26)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 70B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E038D932)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 8B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AFE8E0CD)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 11B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D30E6B4B)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-478319B0)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 1B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 3B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F2E6F90D)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-51B0DEE7)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.3 70B Instruct | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F77743B5)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B4B995D8)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 4 Scout | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-92E7FE32)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Scout. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para Magistral Small 2509 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-37A44E24)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Magistral Small 2509. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para MiniMax M2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F2107865)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para MiniMax M2. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para MiniMax M2.1 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FB43CE55)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para MiniMax M2.1. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para MiniMax M2.5 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BC9ED53F)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para MiniMax M2.5. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para Ministral 3 14B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E3C8B9C9)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Ministral 3 14B. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para Ministral 3 8B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1401504A)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Ministral 3 8B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Ministral 3B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9335BC45)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Ministral 3B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Mistral Large 2 (24.07) | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BAE2EB93)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07). | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Mistral Large 3 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B1E4F57A)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Mistral Large 3. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Mistral Small | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E6489B37)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Mistral Small. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-69AC41C2)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para NVIDIA Nemotron 3 Super 120B A12B. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para NVIDIA Nemotron Nano 12B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FDE45816)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 12B. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para NVIDIA Nemotron Nano 3 30B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AE040A57)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para NVIDIA Nemotron Nano 9B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F225D073)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Nova 2 Lite | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4A832410)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova 2 Lite. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Lite V1 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B8626674)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Lite V1. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Micro V1 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D56DF585)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Micro V1. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Pro V1 | me-central-1:50.000<br />Cada uma das outras regiões compatíveis: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9B651738)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Pro V1. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o OpenAI GPT OSS 120b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9EF11C18)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o OpenAI GPT OSS 20b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EF804815)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 120b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EDE20AF1)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 20b | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-135AE4B7)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 235B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FD509977)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 235B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 32B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-28258E5D)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 32B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder 30B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-46EFABBA)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder 480B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AE136EE5)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder Next | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0D1F6A84)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder Next. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Next 80B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-962E1C58)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Next 80B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para Qwen3 VL 235B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DFE5A893)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 VL 235B. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Titan Multimodal Embeddings G1 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-81E26054)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Titan Text Embeddings V2 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D1151D45)  | Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para o Voxtral Mini 3B 2507 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7C1813A6)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Voxtral Mini 3B 2507. | 
| Registros por arquivo de entrada por tarefa de inferência em lote para o Voxtral Small 24B 2507 | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DE84A1A0)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Voxtral Small 24B 2507. | 
| Registros por arquivo de entrada por trabalho de inferência em lote para o Writer Palmyra Vision 7B | Cada região compatível: 100.000 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8A361B65)  | O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Writer Palmyra Vision 7B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-AF2A00BD)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Amazon Nova 2 Multimodal Embeddings V1. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Amazon Nova Premier | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-654787A4)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Amazon Nova Premier. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Haiku | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1570CF9E)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Haiku. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Opus | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-9A0F509C)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Opus. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Sonnet | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-67BD0D49)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Sonnet. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Haiku | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-220B8A25)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Haiku. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4E7EE0B5)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet v2 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C2FA9AEC)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet v2. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.7 Sonnet | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E455959C)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.7 Sonnet. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Haiku 4.5 | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-63020993)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Haiku 4.5. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Opus 4.5 | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E83AC604)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Opus 4.5. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Opus 4.6 | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B0F56DCF)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Opus 4.6. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude Sonnet 4 | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-79EFF176)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude Sonnet 4. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.5. | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A0300844)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.5. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.6 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3030E098)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.6. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para DeepSeek V3.2 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D1C9F3B9)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para. DeepSeek V3.2 | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para a v3 DeepSeek  | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1C19AAE8)  | O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para DeepSeek a v3. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Devstral 2 123B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-95CB8E2F)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Devstral 2 123B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EA873E18)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7 Flash | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E453CCF3)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7 Flash. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 5 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5BA88337)  | O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para o GLM 5. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 12B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-71A1F0FA)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 12B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 27B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C6AAFCD0)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 27B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 4B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-DC465F65)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 4B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Kimi K2 Thinking | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-78B4AF01)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Kimi K2 Thinking. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Kimi K2.5 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EC77BD96)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Kimi. K2.5 | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 405B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A0AAB785)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 405B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 70B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-62E2A345)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 70B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 8B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-391478D2)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 8B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 11B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-3CCB3548)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 11B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 1B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-8CC57EDA)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 1B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 3B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-059C1AAB)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 3B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 90B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-89923E2C)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 90B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.3 70B Instruct | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FE24F76E)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.3 70B Instruct. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Maverick | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-4E7DDF49)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Maverick. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Scout | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B1E11F5B)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Scout. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Magistral Small 2509 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-53B814D7)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Magistral Small 2509. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para M2 MiniMax  | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A94DA744)  | O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para MiniMax M2. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para MiniMax M2.1 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C05EB25B)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para. MiniMax M2.1 | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para MiniMax M2.5 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-B49AA29C)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para. MiniMax M2.5 | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 14B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-29BDACF9)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 14B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 8B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-89117837)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 8B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D13C968B)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Large 2 (24.07) | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-5D367E5C)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Large 2 (24.07). | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Mistral Large 3 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-090C78B9)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Mistral Large 3. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Small | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A986092E)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Small. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para NVIDIA Nemotron 3 Super 120B A12B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-6D88F00E)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron 3 Super 120B A12B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 12B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EEE88DB2)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 12B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 3 30B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-0ED8E85F)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 3 30B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 9B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-864449ED)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 9B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Nova 2 Lite | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-10F69CA1)  | O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para o Nova 2 Lite. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Lite V1 | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-E2ED42E6)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Lite V1. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Micro V1 | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-564C017C)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Micro V1. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Pro V1 | me-central-1:20<br />Cada uma das outras regiões compatíveis: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-FE130012)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Pro V1. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 120b | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-07844084)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 120b. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 20b | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-50CC95A8)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 20b. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 120b | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-D9E467C0)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 120b. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 20b | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-811E997F)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 20b. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 235B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-91E3DBE2)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 235B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 32B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7B9A79C8)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 32B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 30B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-F30EAB98)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 30B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 480B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-A02F87EC)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 480B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Coder Next | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-091EBF74)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Coder Next. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Next 80B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-EA6F6B5F)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Next 80B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 VL 235B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-990A2394)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 VL 235B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Multimodal Embeddings G1 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-7F2C6F33)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Multimodal Embeddings G1. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Text Embeddings V2 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-1AC1CABC)  | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Text Embeddings V2. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Mini 3B 2507 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-BA72E406)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Mini 3B 2507. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Small 24B 2507 | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-C540484E)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Small 24B 2507. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Writer Palmyra Vision 7B | Cada região compatível: 100 |  [Sim](https://console.aws.amazon.com/servicequotas/home/services/bedrock/quotas/L-88DE0CAC)  | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Writer Palmyra Vision 7B. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1 | Cada região compatível: 3 | Não | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1. | 
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Text Embeddings V2 | Cada região compatível: 3 | Não | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Text Embeddings V2 | 
| Limite de taxa de aceleração para o Bedrock Data Automation Runtime: ListTagsForResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation Runtime: ListTagsForResource solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para o Bedrock Data Automation Runtime: TagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation Runtime: TagResource solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para o Bedrock Data Automation Runtime: UntagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation Runtime: UntagResource solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para Bedrock Data Automation: ListTagsForResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation: ListTagsForResource solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para Bedrock Data Automation: TagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation: TagResource solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para Bedrock Data Automation: UntagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation: UntagResource solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para CreateBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de CreateBlueprint solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para CreateBlueprintVersion | Cada região compatível: 5 por segundo | Não | O número máximo de CreateBlueprintVersion solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para CreateDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de CreateDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para DeleteBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de DeleteBlueprint solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para DeleteDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de DeleteDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para GetBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de GetBlueprint solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para GetDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de GetDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para GetDataAutomationStatus | Cada região compatível: 10 por segundo | Não | O número máximo de GetDataAutomationStatus solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para InvokeDataAutomationAsync | Cada região compatível: 10 por segundo | Não | O número máximo de InvokeDataAutomationAsync solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para ListBlueprints | Cada região compatível: 5 por segundo | Não | O número máximo de ListBlueprints solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para ListDataAutomationProjects | Cada região compatível: 5 por segundo | Não | O número máximo de ListDataAutomationProjects solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para UpdateBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de UpdateBlueprint solicitações que você pode fazer por segundo por conta, na região atual | 
| Limite de taxa de aceleração para UpdateDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de UpdateDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual | 
| UpdateAgent solicitações por segundo | Cada região compatível: 4 | Não | O número máximo de solicitações de UpdateAgent API por segundo. | 
| UpdateAgentActionGroup solicitações por segundo | Cada região compatível: 6 | Não | O número máximo de solicitações de UpdateAgentActionGroup API por segundo. | 
| UpdateAgentAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de UpdateAgentAlias API por segundo. | 
| UpdateAgentKnowledgeBase solicitações por segundo | Cada região compatível: 4 | Não | O número máximo de solicitações de UpdateAgentKnowledgeBase API por segundo. | 

**nota**  
É possível solicitar um aumento de cotas para sua conta seguindo as etapas abaixo:  
Se uma cota estiver marcada como **Sim**, você poderá ajustá-la seguindo as etapas em [Solicitar um aumento de cota](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html), no Guia do usuário do Service Quotas.
Se uma cota estiver marcada como **Não**, você poderá enviar uma solicitação por meio do [formulário de aumento de limite](https://console.aws.amazon.com/support/home#/case/create?issueType=service-limit-increase) para um consideração de aumento.
Para qualquer modelo, você pode solicitar um aumento para as seguintes cotas juntas:  
Cross-Region InvokeModel tokens por minuto para {{${model}}}
Cross-Region InvokeModel solicitações por minuto para {{${model}}}
On-demand InvokeModel tokens por minuto para {{${model}}}
On-demand InvokeModel solicitações por minuto para {{${model}}}
Para solicitar um aumento para qualquer combinação dessas cotas, solicite um aumento dos **Cross-Region InvokeModel tokens por minuto** da {{${model}}} cota seguindo as etapas em [Solicitando um aumento de cota no Guia do usuário de cotas](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) de serviço. Depois de fazer isso, a equipe de suporte entrará em contato e oferecerá a opção de aumentar também as outras três cotas. Devido à extraordinária demanda, a prioridade será dada aos clientes que geram tráfego que consome sua alocação de cota existente. Sua solicitação poderá ser negada se você não atender a essa condição.