Endpoints de serviço do Amazon Bedrock Amazon Bedrock Service Quotas

Endpoints e cotas de Amazon Bedrock

Para se conectar programaticamente a um AWS serviço, você usa um endpoint. AWS os serviços oferecem os seguintes tipos de endpoints em algumas ou em todas as AWS regiões às quais o serviço oferece suporte: IPv4 endpoints, endpoints de pilha dupla e endpoints FIPS. Alguns serviços fornecem endpoints globais. Para obter mais informações, consulte AWSEndpoints de serviço da.

As cotas de serviço, também chamadas de limites, são o número máximo de recursos ou operações de serviço da sua AWS conta. Para obter mais informações, consulte AWSService Quotes.

A seguir estão os endpoints de serviço e as cotas de serviço para este serviço.

Endpoints de serviço do Amazon Bedrock

Avião de controle Amazon Bedrock APIs

A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para gerenciamento, treinamento e implantação de modelos. Use esses endpoints para operações de API do Amazon Bedrock.

Nome da região	Região	Endpoint	Protocolo
Leste dos EUA (Ohio)	us-east-2	bedrock.us-east-2.amazonaws.com bedrock-fips.us-east-2.amazonaws.com	HTTPS HTTPS
Leste dos EUA (Norte da Virgínia)	us-east-1	bedrock.us-east-1.amazonaws.com bedrock-fips.us-east-1.amazonaws.com	HTTPS HTTPS
Oeste dos EUA (N. da Califórnia)	us-west-1	bedrock.us-west-1.amazonaws.com bedrock-fips.us-west-1.amazonaws.com	HTTPS HTTPS
Oeste dos EUA (Oregon)	us-west-2	bedrock.us-west-2.amazonaws.com bedrock-fips.us-west-2.amazonaws.com	HTTPS HTTPS
África (Cidade do Cabo)	af-south-1	bedrock.af-south-1.amazonaws.com	HTTPS
Ásia-Pacífico (Hyderabad)	ap-south-2	bedrock.ap-south-2.amazonaws.com	HTTPS
Ásia-Pacífico (Jacarta)	ap-southeast-3	bedrock.ap-southeast-3.amazonaws.com	HTTPS
Ásia-Pacífico (Malásia)	ap-southeast-5	bedrock.ap-southeast-5.amazonaws.com	HTTPS
Ásia-Pacífico (Melbourne)	ap-southeast-4	bedrock.ap-southeast-4.amazonaws.com	HTTPS
Ásia-Pacífico (Mumbai)	ap-south-1	bedrock.ap-south-1.amazonaws.com	HTTPS
Ásia-Pacífico (Nova Zelândia)	ap-southeast-6	bedrock.ap-southeast-6.amazonaws.com	HTTPS
Ásia-Pacífico (Osaka)	ap-northeast-3	bedrock.ap-northeast-3.amazonaws.com	HTTPS
Ásia-Pacífico (Seul)	ap-northeast-2	bedrock.ap-northeast-2.amazonaws.com	HTTPS
Ásia-Pacífico (Singapura)	ap-southeast-1	bedrock.ap-southeast-1.amazonaws.com	HTTPS
Ásia-Pacífico (Sydney)	ap-southeast-2	bedrock.ap-southeast-2.amazonaws.com	HTTPS
Ásia-Pacífico (Taipei)	ap-east-2	bedrock.ap-east-2.amazonaws.com	HTTPS
Ásia-Pacífico (Tailândia)	ap-southeast-7	bedrock.ap-southeast-7.amazonaws.com	HTTPS
Ásia-Pacífico (Tóquio)	ap-northeast-1	bedrock.ap-northeast-1.amazonaws.com	HTTPS
Canadá (Central)	ca-central-1	bedrock.ca-central-1.amazonaws.com bedrock-fips.ca-central-1.amazonaws.com	HTTPS HTTPS
Oeste do Canadá (Calgary)	ca-west-1	bedrock.ca-west-1.amazonaws.com bedrock-fips.ca-west-1.amazonaws.com	HTTPS HTTPS
Europa (Frankfurt)	eu-central-1	bedrock.eu-central-1.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock.eu-west-2.amazonaws.com	HTTPS
Europa (Milão)	eu-south-1	bedrock.eu-south-1.amazonaws.com	HTTPS
Europa (Paris)	eu-west-3	bedrock.eu-west-3.amazonaws.com	HTTPS
Europa (Espanha)	eu-south-2	bedrock.eu-south-2.amazonaws.com	HTTPS
Europa (Estocolmo)	eu-north-1	bedrock.eu-north-1.amazonaws.com	HTTPS
Europa (Zurique)	eu-central-2	bedrock.eu-central-2.amazonaws.com	HTTPS
Israel (Tel Aviv)	il-central-1	bedrock.il-central-1.amazonaws.com	HTTPS
México (Central)	mx-central-1	bedrock.mx-central-1.amazonaws.com	HTTPS
Oriente Médio (Barém)	me-south-1	bedrock.me-south-1.amazonaws.com	HTTPS
Oriente Médio (Emirados Árabes Unidos)	me-central-1	bedrock.me-central-1.amazonaws.com	HTTPS
América do Sul (São Paulo)	sa-east-1	bedrock.sa-east-1.amazonaws.com	HTTPS
AWS GovCloud (Leste dos EUA)	us-gov-east-1	bedrock.us-gov-east-1.amazonaws.com bedrock-fips.us-gov-east-1.amazonaws.com	HTTPS HTTPS
AWS GovCloud (Oeste dos EUA)	us-gov-west-1	bedrock.us-gov-west-1.amazonaws.com bedrock-fips.us-gov-west-1.amazonaws.com	HTTPS HTTPS

Tempo de execução do Amazon Bedrock APIs

A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para fazer solicitações de inferência para modelos hospedados no Amazon Bedrock. Use esses endpoints para operações de APIs runtime do Amazon Bedrock.

Nome da região	Região	Endpoint	Protocolo
Leste dos EUA (Ohio)	us-east-2	bedrock-runtime.us-east-2.amazonaws.com bedrock-runtime-fips.us-east-2.amazonaws.com	HTTPS HTTPS
Leste dos EUA (Norte da Virgínia)	us-east-1	bedrock-runtime.us-east-1.amazonaws.com bedrock-runtime-fips.us-east-1.amazonaws.com	HTTPS HTTPS
Oeste dos EUA (Oregon)	us-west-2	bedrock-runtime.us-west-2.amazonaws.com bedrock-runtime-fips.us-west-2.amazonaws.com	HTTPS HTTPS
Ásia-Pacífico (Hyderabad)	ap-south-2	bedrock-runtime.ap-south-2.amazonaws.com	HTTPS
Ásia-Pacífico (Mumbai)	ap-south-1	bedrock-runtime.ap-south-1.amazonaws.com	HTTPS
Ásia-Pacífico (Osaka)	ap-northeast-3	bedrock-runtime.ap-northeast-3.amazonaws.com	HTTPS
Ásia-Pacífico (Seul)	ap-northeast-2	bedrock-runtime.ap-northeast-2.amazonaws.com	HTTPS
Ásia-Pacífico (Singapura)	ap-southeast-1	bedrock-runtime.ap-southeast-1.amazonaws.com	HTTPS
Ásia-Pacífico (Sydney)	ap-southeast-2	bedrock-runtime.ap-southeast-2.amazonaws.com	HTTPS
Ásia-Pacífico (Tóquio)	ap-northeast-1	bedrock-runtime.ap-northeast-1.amazonaws.com	HTTPS
Canadá (Central)	ca-central-1	bedrock-runtime.ca-central-1.amazonaws.com bedrock-runtime-fips.ca-central-1.amazonaws.com	HTTPS HTTPS
Europa (Frankfurt)	eu-central-1	bedrock-runtime.eu-central-1.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock-runtime.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock-runtime.eu-west-2.amazonaws.com	HTTPS
Europa (Milão)	eu-south-1	bedrock-runtime.eu-south-1.amazonaws.com	HTTPS
Europa (Paris)	eu-west-3	bedrock-runtime.eu-west-3.amazonaws.com	HTTPS
Europa (Espanha)	eu-south-2	bedrock-runtime.eu-south-2.amazonaws.com	HTTPS
Europa (Estocolmo)	eu-north-1	bedrock-runtime.eu-north-1.amazonaws.com	HTTPS
Europa (Zurique)	eu-central-2	bedrock-runtime.eu-central-2.amazonaws.com	HTTPS
América do Sul (São Paulo)	sa-east-1	bedrock-runtime.sa-east-1.amazonaws.com	HTTPS
AWS GovCloud (Leste dos EUA)	us-gov-east-1	bedrock-runtime.us-gov-east-1.amazonaws.com bedrock-runtime-fips.us-gov-east-1.amazonaws.com	HTTPS HTTPS
AWS GovCloud (Oeste dos EUA)	us-gov-west-1	bedrock-runtime.us-gov-west-1.amazonaws.com bedrock-runtime-fips.us-gov-west-1.amazonaws.com	HTTPS HTTPS

Agentes do Amazon Bedrock Build-Time APIs

A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para criar e gerenciar agentes e bases de conhecimento. Use esses endpoints para operações de API do Agentes para Amazon Bedrock.

Nome da região	Região	Endpoint	Protocolo
Leste dos EUA (Norte da Virgínia)	us-east-1	bedrock-agent.us-east-1.amazonaws.com	HTTPS
Leste dos EUA (Norte da Virgínia)	us-east-1	bedrock-agent-fips.us-east-1.amazonaws.com	HTTPS
Oeste dos EUA (Oregon)	us-west-2	bedrock-agent.us-west-2.amazonaws.com	HTTPS
Oeste dos EUA (Oregon)	us-west-2	bedrock-agent-fips.us-west-2.amazonaws.com	HTTPS
Ásia-Pacífico (Singapura)	ap-southeast-1	bedrock-agent.ap-southeast-1.amazonaws.com	HTTPS
Ásia-Pacífico (Sydney)	ap-southeast-2	bedrock-agent.ap-southeast-2.amazonaws.com	HTTPS
Ásia-Pacífico (Tóquio)	ap-northeast-1	bedrock-agent.ap-northeast-1.amazonaws.com	HTTPS
Ásia-Pacífico (Seul)	ap-northeast-2	bedrock-agent.ap-northeast-2.amazonaws.com	HTTPS
Canadá (Central)	ca-central-1	bedrock-agent.ca-central-1.amazonaws.com	HTTPS
Europa (Frankfurt)	eu-central-1	bedrock-agent.eu-central-1.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock-agent.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock-agent.eu-west-2.amazonaws.com	HTTPS
Europa (Paris)	eu-west-3	bedrock-agent.eu-west-3.amazonaws.com	HTTPS
Ásia-Pacífico (Mumbai)	ap-south-1	bedrock-agent.ap-south-1.amazonaws.com	HTTPS
América do Sul (São Paulo)	sa-east-1	bedrock-agent.sa-east-1.amazonaws.com	HTTPS

Agentes para o tempo de execução do Amazon Bedrock APIs

A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para invocar agentes e consultar bases de conhecimento. Use esses endpoints para operações de APIs de runtime do Agentes para Amazon Bedrock.

Nome da região	Região	Endpoint	Protocolo
Leste dos EUA (Norte da Virgínia)	us-east-1	bedrock-agent-runtime.us-east-1.amazonaws.com	HTTPS
Leste dos EUA (Norte da Virgínia)	us-east-1	bedrock-agent-runtime-fips.us-east-1.amazonaws.com	HTTPS
Oeste dos EUA (Oregon)	us-west-2	bedrock-agent-runtime.us-west-2.amazonaws.com	HTTPS
Oeste dos EUA (Oregon)	us-west-2	bedrock-agent-runtime-fips.us-west-2.amazonaws.com	HTTPS
Ásia-Pacífico (Singapura)	ap-southeast-1	bedrock-agent-runtime.ap-southeast-1.amazonaws.com	HTTPS
Ásia-Pacífico (Sydney)	ap-southeast-2	bedrock-agent-runtime.ap-southeast-2.amazonaws.com	HTTPS
Ásia-Pacífico (Tóquio)	ap-northeast-1	bedrock-agent-runtime.ap-northeast-1.amazonaws.com	HTTPS
Ásia-Pacífico (Seul)	ap-northeast-2	bedrock-agent-runtime.ap-northeast-2.amazonaws.com	HTTPS
Canadá (Central)	ca-central-1	bedrock-agent-runtime.ca-central-1.amazonaws.com	HTTPS
Europa (Frankfurt)	eu-central-1	bedrock-agent-runtime.eu-central-1.amazonaws.com	HTTPS
Europa (Paris)	eu-west-3	bedrock-agent-runtime.eu-west-3.amazonaws.com	HTTPS
Europa (Irlanda)	eu-west-1	bedrock-agent-runtime.eu-west-1.amazonaws.com	HTTPS
Europa (Londres)	eu-west-2	bedrock-agent-runtime.eu-west-2.amazonaws.com	HTTPS
Ásia-Pacífico (Mumbai)	ap-south-1	bedrock-agent-runtime.ap-south-1.amazonaws.com	HTTPS
América do Sul (São Paulo)	sa-east-1	bedrock-agent-runtime.sa-east-1.amazonaws.com	HTTPS

Automação de dados Amazon Bedrock APIs

A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pela automação de dados para Amazon Bedrock. Os endpoints que usam a palavra runtime invocam esquemas e projetos para extrair informações de arquivos. Use esses endpoints para operações de APIs de runtime de automação de dados do Amazon Bedrock. Pde extremidade sem runtime são usados para criar esquemas e projetos para fornecer orientação de extração. Use esses endpoints para operações de buildtime da API de automação de dados do Amazon Bedrock

Nome da região	Região	Endpoint	Protocolo
Leste dos EUA (Norte da Virgínia)	us-east-1	bedrock-data-automation.us-east-1.amazonaws.com bedrock-data-automation-runtime.us-east-1.api.aws bedrock-data-automation-runtime.us-east-1.amazonaws.com bedrock-data-automation.us-east-1.api.aws bedrock-data-automation-fips.us-east-1.amazonaws.com bedrock-data-automation-runtime-fips.us-east-1.api.aws bedrock-data-automation-runtime-fips.us-east-1.amazonaws.com bedrock-data-automation-fips.us-east-1.api.aws	HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS
Oeste dos EUA (Oregon)	us-west-2	bedrock-data-automation.us-west-2.amazonaws.com bedrock-data-automation-runtime.us-west-2.api.aws bedrock-data-automation-runtime.us-west-2.amazonaws.com bedrock-data-automation.us-west-2.api.aws bedrock-data-automation-fips.us-west-2.amazonaws.com bedrock-data-automation-runtime-fips.us-west-2.api.aws bedrock-data-automation-runtime-fips.us-west-2.amazonaws.com bedrock-data-automation-fips.us-west-2.api.aws	HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS
Ásia-Pacífico (Mumbai)	ap-south-1	bedrock-data-automation.ap-south-1.amazonaws.com bedrock-data-automation-runtime.ap-south-1.amazonaws.com	HTTPS HTTPS
Ásia-Pacífico (Sydney)	ap-southeast-2	bedrock-data-automation.ap-southeast-2.amazonaws.com bedrock-data-automation-runtime.ap-southeast-2.amazonaws.com	HTTPS HTTPS
Europa (Frankfurt)	eu-central-1	bedrock-data-automation.eu-central-1.amazonaws.com bedrock-data-automation-runtime.eu-central-1.amazonaws.com	HTTPS HTTPS
Europa (Irlanda)	eu-west-1	bedrock-data-automation.eu-west-1.amazonaws.com bedrock-data-automation-runtime.eu-west-1.amazonaws.com	HTTPS HTTPS
Europa (Londres)	eu-west-2	bedrock-data-automation.eu-west-2.amazonaws.com bedrock-data-automation-runtime.eu-west-2.amazonaws.com	HTTPS HTTPS
AWS GovCloud (Oeste dos EUA)	us-gov-west-1	bedrock-data-automation.us-gov-west-1.amazonaws.com bedrock-data-automation-runtime.us-gov-west-1.amazonaws.com bedrock-data-automation-fips.us-gov-west-1.amazonaws.com bedrock-data-automation-runtime-fips.us-gov-west-1.amazonaws.com	HTTPS HTTPS HTTPS HTTPS

Amazon Bedrock Service Quotas

dica

Como o Amazon Bedrock tem um grande número de cotas, recomendamos que você visualize as Service Quotas usando o console em vez de usar a tabela abaixo. Abra as cotas do Amazon Bedrock. Use o campo de pesquisa para encontrar cotas específicas. Use o ícone de engrenagem para controlar quantas cotas são exibidas em uma página.

Nome	Padrão	Ajustável	Description
(Otimização avançada de prompts) Trabalhos ativos por conta	Cada região compatível: 20	Não	Número máximo de trabalhos ativos de Otimização avançada de prompts (APO) por conta.
(Otimização avançada de prompts) Trabalhos inativos por conta	Cada região com suporte: 5.000	Não	Número máximo de trabalhos inativos de Otimização avançada de prompts (APO) por conta.
(Raciocínio automatizado) Anotações na política	Cada região com suporte: 10	Não	Número máximo de anotações em uma política de raciocínio automatizado.
(Raciocínio automatizado) CancelAutomatedReasoningPolicyBuildWorkflow solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de CancelAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Raciocínio automatizado) Compilações simultâneas por política	Cada região compatível: 2	Não	Número máximo de compilações simultâneas por política de raciocínio automatizado.
(Raciocínio automatizado) Criação de políticas simultâneas por conta	Cada região compatível: 5	Não	Número máximo de compilações simultâneas de políticas de raciocínio automatizado em uma conta.
(Raciocínio automatizado) CreateAutomatedReasoningPolicy solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de CreateAutomatedReasoningPolicy API por segundo.
(Raciocínio automatizado) CreateAutomatedReasoningPolicyTestCase solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de CreateAutomatedReasoningPolicyTestCase API por segundo.
(Raciocínio automatizado) CreateAutomatedReasoningPolicyVersion solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de CreateAutomatedReasoningPolicyVersion API por segundo.
(Raciocínio automatizado) DeleteAutomatedReasoningPolicy solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de DeleteAutomatedReasoningPolicy API por segundo.
(Raciocínio automatizado) DeleteAutomatedReasoningPolicyBuildWorkflow solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de DeleteAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Raciocínio automatizado) DeleteAutomatedReasoningPolicyTestCase solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de DeleteAutomatedReasoningPolicyTestCase API por segundo.
(Raciocínio automatizado) ExportAutomatedReasoningPolicyVersion solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de ExportAutomatedReasoningPolicyVersion API por segundo.
(Raciocínio automatizado) GetAutomatedReasoningPolicy solicitações por segundo	Cada região com suporte: 10	Sim	O número máximo de solicitações de GetAutomatedReasoningPolicy API por segundo.
(Raciocínio automatizado) GetAutomatedReasoningPolicyAnnotations solicitações por segundo	Cada região com suporte: 10	Sim	O número máximo de solicitações de GetAutomatedReasoningPolicyAnnotations API por segundo.
(Raciocínio automatizado) GetAutomatedReasoningPolicyBuildWorkflow solicitações por segundo	Cada região com suporte: 10	Sim	O número máximo de solicitações de GetAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Raciocínio automatizado) GetAutomatedReasoningPolicyBuildWorkflowResultAssets solicitações por segundo	Cada região com suporte: 10	Sim	O número máximo de solicitações de GetAutomatedReasoningPolicyBuildWorkflowResultAssets API por segundo.
(Raciocínio automatizado) GetAutomatedReasoningPolicyNextScenario solicitações por segundo	Cada região com suporte: 10	Sim	O número máximo de solicitações de GetAutomatedReasoningPolicyNextScenario API por segundo.
(Raciocínio automatizado) GetAutomatedReasoningPolicyTestCase solicitações por segundo	Cada região com suporte: 10	Sim	O número máximo de solicitações de GetAutomatedReasoningPolicyTestCase API por segundo.
(Raciocínio automatizado) GetAutomatedReasoningPolicyTestResult solicitações por segundo	Cada região com suporte: 10	Sim	O número máximo de solicitações de GetAutomatedReasoningPolicyTestResult API por segundo.
(Raciocínio automatizado) ListAutomatedReasoningPolicies solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de ListAutomatedReasoningPolicies API por segundo.
(Raciocínio automatizado) ListAutomatedReasoningPolicyBuildWorkflows solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de ListAutomatedReasoningPolicyBuildWorkflows API por segundo.
(Raciocínio automatizado) ListAutomatedReasoningPolicyTestCases solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de ListAutomatedReasoningPolicyTestCases API por segundo.
(Raciocínio automatizado) ListAutomatedReasoningPolicyTestResults solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de ListAutomatedReasoningPolicyTestResults API por segundo.
(Raciocínio automatizado) Políticas por conta	Cada região compatível: 100	Não	Número máximo de políticas de raciocínio automatizado em uma conta.
(Raciocínio automatizado) Regras na política	Cada região com suporte: 500	Não	Número máximo de regras em uma política de raciocínio automatizado.
(Raciocínio automatizado) Tamanho do documento de origem (MB)	Cada região compatível: 5	Não	Tamanho máximo do documento de origem (MB) para a criação de uma política de raciocínio automatizado.
(Raciocínio automatizado) Tokens de documentos de origem	Cada região suportada: 122.880	Não	Número máximo de tokens permitidos em um documento de origem ao criar uma política de raciocínio automatizado.
(Raciocínio automatizado) StartAutomatedReasoningPolicyBuildWorkflow solicitações por segundo	Cada região compatível: 1	Sim	O número máximo de solicitações de StartAutomatedReasoningPolicyBuildWorkflow API por segundo.
(Raciocínio automatizado) StartAutomatedReasoningPolicyTestWorkflow solicitações por segundo	Cada região compatível: 1	Sim	O número máximo de solicitações de StartAutomatedReasoningPolicyTestWorkflow API por segundo.
(Raciocínio automatizado) Testes por política	Cada região compatível: 100	Não	Número máximo de testes por política de raciocínio automatizado.
(Raciocínio automatizado) Tipos por política	Cada região compatível: 50	Não	Número máximo de tipos em uma política de raciocínio automatizado.
(Raciocínio automatizado) UpdateAutomatedReasoningPolicy solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de UpdateAutomatedReasoningPolicy API por segundo.
(Raciocínio automatizado) UpdateAutomatedReasoningPolicyAnnotations solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de UpdateAutomatedReasoningPolicyAnnotations API por segundo.
(Raciocínio automatizado) UpdateAutomatedReasoningPolicyTestCase solicitações por segundo	Cada região compatível: 5	Sim	O número máximo de solicitações de UpdateAutomatedReasoningPolicyTestCase API por segundo.
(Raciocínio automatizado) Valores por tipo na política	Cada região compatível: 50	Não	Número máximo de valores por tipo em uma política de raciocínio automatizado.
(Raciocínio automatizado) Variáveis na política	Cada região compatível: 200	Não	Número máximo de variáveis em uma política de raciocínio automatizado.
(Raciocínio automatizado) Versões por política	Cada região com suporte: 1.000	Não	Número máximo de versões por política de raciocínio automatizado.
(Automação de dados) (Console) Tamanho máximo do arquivo de documento (MB)	Cada região compatível: 200	Não	Tamanho máximo do arquivo para o console
(Automação de dados) (Console) Número máximo de páginas por arquivo de documento	Cada região compatível: 20	Não	Número máximo de páginas por documento no console
(Automação de dados) CreateBlueprint - Número máximo de plantas por conta	Cada região compatível: 350	Sim	Número máximo de esquemas por conta
(Automação de dados) CreateBlueprintVersion - Número máximo de versões do Blueprint por Blueprint	Cada região com suporte: 10	Sim	Número máximo de versões por esquema
(Automação de dados) Comprimento da descrição dos campos (caracteres)	Cada região com suporte: 300	Não	Comprimento máximo da descrição dos campos em caracteres
(Automação de dados) InvokeBlueprintOptimizationAsync - Número máximo de trabalhos simultâneos de otimização do blueprint	Cada região compatível: 3	Sim	O número máximo de trabalhos abertos do Invoke Blueprint Optimization Async
(Automação de dados) InvokeBlueprintOptimizationAsync - Número máximo de trabalhos de otimização do blueprint por dia	Cada região compatível: 30	Não	O número máximo de trabalhos do Invoke Blueprint Optimization Async por dia
(Automação de dados) InvokeDataAutomation (Sincronização) - Documento - Número máximo de solicitações	Cada região compatível: 60	Sim	O número máximo de InvokeDataAutomation solicitações por minuto para a modalidade de documento
(Automação de dados) InvokeDataAutomation (Sincronização) - Imagem - Número máximo de solicitações	us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 100	Sim	O número máximo de InvokeDataAutomation solicitações por minuto para a modalidade de imagem
(Automação de dados) InvokeDataAutomationAsync - Áudio - Número máximo de trabalhos simultâneos	us-east-1: 20 us-west-2: 20 Cada uma das outras regiões compatíveis: 2	Sim	Número máximo de trabalhos abertos Invoke Data Automation Async para áudios
(Automação de dados) InvokeDataAutomationAsync - Documento - Número máximo de trabalhos simultâneos	us-east-1:25 us-west-2:25 Cada uma das outras regiões compatíveis: 5	Sim	Número máximo de trabalhos abertos Invoke Data Automation Async para documentos
(Automação de dados) InvokeDataAutomationAsync - Imagem - Número máximo de trabalhos simultâneos	us-east-1: 20 us-west-2: 20 Cada uma das outras regiões compatíveis: 5	Sim	Número máximo de trabalhos abertos Invoke Data Automation Async para imagens
(Automação de dados) InvokeDataAutomationAsync - Número máximo de vagas abertas	Cada região compatível: 1.800	Não	Número máximo de trabalhos abertos Invoke Data Automation Async para imagens
(Automação de dados) InvokeDataAutomationAsync - Vídeo - Número máximo de trabalhos simultâneos	us-east-1: 20 us-west-2: 20 Cada uma das outras regiões suportadas: 3	Sim	Número máximo de trabalhos abertos Invoke Data Automation Async para vídeos
(Automação de dados) Taxa máxima de amostragem de áudio (Hz)	Cada região suportada: 48.000	Não	A taxa máxima de amostragem de áudio
(Automação de dados) Máximo de esquemas por projeto (áudios)	Cada região compatível: 1	Não	Número máximo de esquemas por projeto para áudios
(Automação de dados) Máximo de esquemas por projeto (documentos)	Cada região compatível: 40	Não	Número máximo de esquemas por projeto para documentos
(Automação de dados) Máximo de esquemas por projeto (imagens)	Cada região compatível: 1	Não	Número máximo de esquemas por projeto para imagens
(Automação de dados) Máximo de esquemas por projeto (vídeos)	Cada região compatível: 1	Não	Número máximo de esquemas por projeto para vídeos
(Automação de dados) Tamanho máximo do esquema JSON (caracteres)	Cada região compatível: 100.000	Não	Tamanho máximo do JSON em caracteres
(Automação de dados) Níveis máximos de hierarquia de campo	Cada região compatível: 1	Não	Número máximo de níveis da hierarquia de campos
(Automação de dados) Número máximo de páginas por documento	Cada região com suporte: 3.000	Não	Número máximo de páginas por documento
(Automação de dados) Resolução máxima	Cada região compatível: 8.000	Não	A resolução máxima para imagens
(Automação de dados) Tamanho máximo do arquivo de áudio (MB)	Cada região compatível: 2.048	Não	Tamanho máximo do arquivo de áudio
(Automação de dados) Duração máxima do áudio (minutos)	Cada região suportada: 240	Não	A duração máxima do áudio em minutos
(Automação de dados) Tamanho máximo do arquivo de documento (MB)	Cada região com suporte: 500	Não	Tamanho máximo do arquivo
(Automação de dados) Tamanho máximo do arquivo de imagem (MB)	Cada região compatível: 5	Não	Tamanho máximo do arquivo para imagens
(Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (áudios)	Cada região compatível: 1	Não	Número máximo de esquemas inline em Iniciar solicitação de inferência
(Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (documentos)	Cada região com suporte: 10	Não	Número máximo de esquemas inline em Iniciar solicitação de inferência
(Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (imagens)	Cada região compatível: 1	Não	Número máximo de esquemas inline em Iniciar solicitação de inferência
(Automação de dados) Número máximo de esquemas por solicitação de início de inferência (vídeos)	Cada região compatível: 1	Não	Número máximo de esquemas inline em Iniciar solicitação de inferência
(Automação de dados) Número máximo de campos de lista por esquema	Cada região compatível: 15	Não	Número máximo de campos de lista por esquema
(Automação de dados) Tamanho máximo do arquivo de vídeo (MB)	Cada região compatível: 10,240	Não	Tamanho máximo do arquivo para vídeos
(Automação de dados) Duração máxima do vídeo (minutos)	Cada região suportada: 240	Não	A duração máxima dos vídeos em minutos
(Automação de dados) Taxa mínima de amostragem de áudio (Hz)	Cada região compatível: 8.000	Não	A taxa mínima de amostragem de áudio
(Automação de dados) Duração mínima do áudio (milissegundos)	Cada região com suporte: 500	Não	A duração mínima do áudio em milissegundos
(Avaliação) Número de trabalhos simultâneos de avaliação automática de modelos	Cada região compatível: 20	Não	Número máximo de trabalhos de avaliação automática de modelos que você pode especificar de uma só vez nessa conta na região atual.
(Avaliação) Número de trabalhos de avaliação de modelos simultâneos que usam operadores humanos	Cada região com suporte: 10	Não	Número máximo de trabalhos de avaliação de modelos que usam operadores humanos que você pode especificar de uma só vez nessa conta na região atual.
(Avaliação) Número de métricas personalizadas	Cada região com suporte: 10	Não	Número máximo de métricas personalizadas que você pode especificar em um trabalho de avaliação de modelo que usa operadores humanos.
(Avaliação) Número de conjuntos de dados de prompts personalizados em um trabalho de avaliação de modelo baseado em humanos	Cada região compatível: 1	Não	Número máximo de conjuntos de dados de prompts personalizados que podem ser especificados em um trabalho de avaliação de modelo baseado em humanos nessa conta na região atual.
(Avaliação) Número de conjuntos de dados por trabalho	Cada região compatível: 5	Não	Número máximo de conjuntos de dados que pode ser especificado em um trabalho de avaliação de modelo automatizado. Isso inclui conjuntos de dados de prompts personalizados e incorporados.
(Avaliação) Número de trabalhos de avaliação	Cada região com suporte: 5.000	Não	Número máximo de trabalhos de avaliação de modelos que você pode criar nessa conta na região atual.
(Avaliação) Número de métricas por conjunto de dados	Cada região compatível: 3	Não	Número máximo de métricas que você pode especificar por conjunto de dados em um trabalho de avaliação de modelo automatizado. Isso inclui métricas personalizadas e incorporadas.
(Avaliação) Número de modelos em um trabalho de avaliação de modelos que usa operadores humanos	Cada região compatível: 2	Não	Número máximo de modelos que você pode especificar em um trabalho de avaliação de modelo que usa operadores humanos.
(Avaliação) Número de modelos no trabalho de avaliação automatizada de modelos	Cada região compatível: 1	Não	Número máximo de modelos que pode ser especificado em um trabalho de avaliação de modelo automatizado.
(Avaliação) Número de prompts em um conjunto de dados de prompts personalizados	Cada região com suporte: 1.000	Não	Número máximo de prompts que um conjunto de dados de prompts personalizados pode conter.
(Avaliação) Tamanho do prompt	Cada região compatível: 4	Não	Tamanho máximo (em KB) de um prompt individual em um conjunto de dados de prompts personalizados.
(Avaliação) Tempo de tarefa para operadores	Cada região compatível: 30	Não	A duração máxima (em dias) do tempo que um operador pode ter para concluir tarefas.
(Fluxos) Nós de agente por fluxo	Cada região compatível: 20	Não	Número máximo de nós de agente.
(Fluxos) Nós coletores por fluxo	Cada região compatível: 1	Não	Número máximo de nós coletores.
(Fluxos) Nós de condição por fluxo	Cada região compatível: 5	Não	Número máximo de nós de condições.
(Fluxos) Condições por nó de condições	Cada região compatível: 5	Não	Número máximo de condições por nó de condições.
(Fluxos) CreateFlow solicitações por segundo	Cada região compatível: 2	Não	O número máximo de CreateFlow solicitações por segundo.
(Fluxos) CreateFlowAlias solicitações por segundo	Cada região compatível: 2	Não	O número máximo de CreateFlowAlias solicitações por segundo.
(Fluxos) CreateFlowVersion solicitações por segundo	Cada região compatível: 2	Não	O número máximo de CreateFlowVersion solicitações por segundo.
(Fluxos) DeleteFlow solicitações por segundo	Cada região compatível: 2	Não	O número máximo de DeleteFlow solicitações por segundo.
(Fluxos) DeleteFlowAlias solicitações por segundo	Cada região compatível: 2	Não	O número máximo de DeleteFlowAlias solicitações por segundo.
(Fluxos) DeleteFlowVersion solicitações por segundo	Cada região compatível: 2	Não	O número máximo de DeleteFlowVersion solicitações por segundo.
(Fluxos) Aliases de fluxo por fluxo	Cada região com suporte: 10	Não	Número máximo de aliases de fluxo.
(Fluxos) Execuções de fluxo por conta	Cada região com suporte: 1.000	Sim	Número máximo de execuções de fluxo por conta.
(Fluxos) Versões de fluxo por fluxo	Cada região com suporte: 10	Não	Número máximo de versões de fluxo.
(Fluxos) Fluxos por conta	Cada região compatível: 100	Sim	Número máximo de fluxos por conta.
(Fluxos) GetFlow solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de GetFlow solicitações por segundo.
(Fluxos) GetFlowAlias solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de GetFlowAlias solicitações por segundo.
(Fluxos) GetFlowVersion solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de GetFlowVersion solicitações por segundo.
(Fluxos) Nós de código inline por fluxo	Cada região compatível: 5	Não	Número máximo de nós de código em linha por fluxo.
(Fluxos) Nós de entrada por fluxo	Cada região compatível: 1	Não	Número máximo de nós de entrada de fluxo.
(Fluxos) Nós iteradores por fluxo	Cada região compatível: 1	Não	Número máximo de nós iteradores.
(Fluxos) Nós de base de conhecimento por fluxo	Cada região compatível: 20	Não	Número máximo de nós de base de conhecimento.
(Fluxos) Nós de funções do Lambda por fluxo	Cada região compatível: 20	Não	Número máximo de nós de funçõesdo Lambda.
(Fluxos) Nós do Lex por fluxo	Cada região compatível: 5	Não	Número máximo de nós do Lex.
(Fluxos) ListFlowAliases solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de ListFlowAliases solicitações por segundo.
(Fluxos) ListFlowVersions solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de ListFlowVersions solicitações por segundo.
(Fluxos) ListFlows solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de ListFlows solicitações por segundo.
(Fluxos) Nós de saída por fluxo	Cada região compatível: 20	Não	Número máximo de nós de saída de fluxo.
(Fluxos) PrepareFlow solicitações por segundo	Cada região compatível: 2	Não	O número máximo de PrepareFlow solicitações por segundo.
(Fluxos) Nós de prompts por fluxo	Cada região compatível: 20	Sim	Número máximo de nós de prompts.
(Fluxos) Nós de recuperação do S3 por fluxo	Cada região com suporte: 10	Não	Número máximo de nós de recuperação do S3.
(Fluxos) Nós de armazenamento do S3 por fluxo	Cada região com suporte: 10	Não	Número máximo de nós de armazenamento do S3.
(Fluxos) Total de nós por fluxo	Cada região compatível: 40	Não	Número máximo de nós em um fluxo.
(Fluxos) UpdateFlow solicitações por segundo	Cada região compatível: 2	Não	O número máximo de UpdateFlow solicitações por segundo.
(Fluxos) UpdateFlowAlias solicitações por segundo	Cada região compatível: 2	Não	O número máximo de UpdateFlowAlias solicitações por segundo.
(Fluxos) ValidateFlowDefinition solicitações por segundo	Cada região compatível: 2	Não	O número máximo de ValidateFlowDefinition solicitações por segundo.
(Barreiras de proteção) Políticas de raciocínio automatizado por barreira de proteção	Cada região compatível: 2	Não	Número máximo de políticas de raciocínio automatizado por barreira de proteção.
(Barreiras de proteção) Tamanho da consulta de fundamentação contextual em unidades de texto	Cada região compatível: 1	Não	Comprimento máximo, em unidades de texto, da consulta para fundamentação contextual
(Barreiras de proteção) Tamanho da resposta de fundamentação contextual em unidades de texto	Cada região compatível: 5	Não	Tamanho máximo, em unidades de texto, da resposta para fundamentação contextual
(Barreiras de proteção) Tamanho da fonte de fundamentação contextual em unidades de texto	us-east-1: 100 us-west-2: 100 Cada uma das outras regiões compatíveis: 50	Não	Tamanho máximo, em unidades de texto, da fonte de fundamentação para fundamentação contextual
(Barreiras de proteção) Frases de exemplo por tópico	Cada região compatível: 5	Não	Número máximo de exemplos de tópicos que podem ser incluídos por tópico
(Barreiras de proteção) Barreiras de proteção por conta	Cada região compatível: 100	Não	Número máximo de barreiras de proteção em uma conta
(Guardrails) Unidades de texto da política de filtro ApplyGuardrail de conteúdo sob demanda por segundo	us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25	Sim	Número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo
(Guardrails) Unidades de texto da política de filtro de ApplyGuardrail conteúdo sob demanda por segundo (padrão)	us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25	Sim	Número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo. Isso se aplica ao modelo de política de conteúdo padrão.
(Guardrails) Unidades de texto da política de tópicos ApplyGuardrail negados sob demanda por segundo	us-east-1:50 us-west-2:50 Cada uma das outras regiões compatíveis: 25	Sim	Número máximo de unidades de texto que podem ser processadas para políticas de tópico negado por segundo
(Guardrails) Unidades de texto da política de tópicos ApplyGuardrail negados sob demanda por segundo (padrão)	us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25	Sim	Número máximo de unidades de texto que podem ser processadas para políticas de tópico negado por segundo. Isso se aplica ao modelo de política de tópico padrão.
(Guardrails) Informações ApplyGuardrail confidenciais sob demanda filtram unidades de texto da política por segundo	us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25	Sim	Número máximo de unidades de texto que podem ser processadas para políticas de filtro de informações confidenciais por segundo
(Guardrails) Unidades de texto da política de filtro do ApplyGuardrail Word sob demanda por segundo	us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25	Sim	Número máximo de unidades de texto que podem ser processadas para políticas de filtro de palavras por segundo
(Guardrails) Unidades de texto da política de fundamentação ApplyGuardrail contextual sob demanda por segundo	Cada região suportada: 106	Sim	Número máximo de unidades de texto que podem ser processadas para políticas de fundamentação contextual por segundo
(Guardrails) Solicitações sob demanda por segundo ApplyGuardrail	us-east-1:50 us-west-2:50 Cada uma das outras regiões compatíveis: 25	Sim	O número máximo de chamadas de ApplyGuardrail API permitidas por segundo
(Barreiras de proteção) Entidades regex no filtro de informações confidenciais	Cada região com suporte: 10	Não	Número máximo de regexes de filtro de barreira de proteção que podem ser incluídos em uma política de informações confidenciais
(Barreiras de proteção) Comprimento do regex em caracteres	Cada região com suporte: 500	Não	Comprimento máximo, em caracteres, de uma regex de filtro de barreira de proteção
(Guardrails) Tópicos por barreira de proteção	Cada região compatível: 30	Não	Número máximo de tópicos que podem ser definidos nas políticas de tópicos de barreiras de proteção
(Grades de proteção) Versões por barreira de proteção	Cada região compatível: 20	Não	Número máximo de versões que uma barreira de proteção pode ter
(Barreiras de proteção) Comprimento da palavra em caracteres	Cada região compatível: 100	Não	Comprimento máximo de uma palavra, em caracteres, em uma lista de palavras bloqueadas
(Barreiras de proteção) Política de palavras por palavra	Cada região compatível: 10.000	Não	Número máximo de palavras que podem ser incluídas em uma lista de palavras bloqueadas
(Bases de conhecimento) Concorrentes IngestKnowledgeBaseDocuments e DeleteKnowledgeBaseDocuments solicitações por conta	Cada região com suporte: 10	Não	O número máximo de DeleteKnowledgeBaseDocuments solicitações IngestKnowledgeBaseDocuments e solicitações que podem ser executadas ao mesmo tempo em uma conta.
(Bases de conhecimento) Trabalhos de ingestão simultâneos por conta	Cada região compatível: 5	Não	Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo em uma conta.
(Bases de conhecimento) Trabalhos de ingestão simultâneos por fonte de dados	Cada região compatível: 1	Não	Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo para uma fonte de dados.
(Bases de conhecimento) Trabalhos de ingestão simultâneos por base de conhecimento	Cada região compatível: 1	Não	Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo para uma base de conhecimento.
(Bases de conhecimento) CreateDataSource solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de CreateDataSource API por segundo.
(Bases de conhecimento) CreateKnowledgeBase solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de CreateKnowledgeBase API por segundo.
(Bases de conhecimento) Fontes de dados por base de conhecimento	Cada região compatível: 5	Não	Número máximo de fontes de dados por base de conhecimento.
(Bases de conhecimento) DeleteDataSource solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de DeleteDataSource API por segundo.
(Bases de conhecimento) DeleteKnowledgeBase solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de DeleteKnowledgeBase API por segundo.
(Bases de conhecimento) DeleteKnowledgeBaseDocuments solicitações por segundo	Cada região compatível: 5	Não	O número máximo de solicitações de DeleteKnowledgeBaseDocuments API por segundo.
(Bases de conhecimento) Arquivos a serem adicionados ou atualizados por trabalho de ingestão	Cada região compatível: 5.000.000	Não	Número máximo de arquivos novos e atualizados que podem ser ingeridos por trabalho de ingestão.
(Bases de conhecimento) Arquivos a serem excluídos por trabalho de ingestão	Cada região compatível: 5.000.000	Não	Número máximo de arquivos que podem ser excluídos por trabalho de ingestão.
(Bases de conhecimento) Arquivos a serem ingeridos por IngestKnowledgeBaseDocuments trabalho.	Cada região compatível: 25	Não	O número máximo de documentos que podem ser ingeridos por IngestKnowledgeBaseDocuments solicitação.
(Bases de conhecimento) GenerateQuery solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de GenerateQuery API por segundo.
(Bases de conhecimento) GetDataSource solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de GetDataSource API por segundo.
(Bases de conhecimento) GetIngestionJob solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de GetIngestionJob API por segundo.
(Bases de conhecimento) GetKnowledgeBase solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de GetKnowledgeBase API por segundo.
(Bases de conhecimento) GetKnowledgeBaseDocuments solicitações por segundo	Cada região compatível: 5	Não	O número máximo de solicitações de GetKnowledgeBaseDocuments API por segundo.
(Bases de conhecimento) IngestKnowledgeBaseDocuments solicitações por segundo	Cada região compatível: 5	Não	O número máximo de solicitações de IngestKnowledgeBaseDocuments API por segundo.
Tamanho IngestKnowledgeBaseDocuments total da carga útil (bases de conhecimento)	Cada região compatível: 6	Não	O tamanho máximo (em MB) da carga útil total em uma IngestKnowledgeBaseDocuments solicitação.
(Bases de conhecimento) Tamanho do arquivo do trabalho de ingestão	Cada região compatível: 50	Não	Tamanho máximo (em MB) de um arquivo em um trabalho de ingestão.
(Bases de conhecimento) Tamanho do trabalho de ingestão	Cada região compatível: 100	Não	Tamanho máximo (em GB) de um trabalho de ingestão.
(Bases de conhecimento) Bases de conhecimento por conta	Cada região compatível: 100	Não	Número máximo de bases de conhecimento por conta.
(Bases de conhecimento) ListDataSources solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListDataSources API por segundo.
(Bases de conhecimento) ListIngestionJobs solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListIngestionJobs API por segundo.
(Bases de conhecimento) ListKnowledgeBaseDocuments solicitações por segundo	Cada região compatível: 5	Não	O número máximo de solicitações de ListKnowledgeBaseDocuments API por segundo.
(Bases de conhecimento) ListKnowledgeBases solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListKnowledgeBases API por segundo.
(Bases de conhecimento) Número máximo de arquivos para o analisador de BDA	Cada região com suporte: 1.000	Não	Número máximo de arquivos que podem ser usados com a automação de dados do Amazon Bedrock como analisador.
(Bases de conhecimento) Número máximo de arquivos para modelos de base como um analisador	Cada região com suporte: 1.000	Não	Número máximo de arquivos que podem ser usados com modelos de base como um analisador.
(Bases de conhecimento) Solicitações de Rerank por segundo	Cada região com suporte: 10	Não	Número máximo de solicitações da API Rerank por segundo.
(Bases de conhecimento) Solicitações de Retrieve por segundo	Cada região compatível: 20	Não	Número máximo de solicitações da API Retrieve por segundo.
(Bases de conhecimento) RetrieveAndGenerate solicitações por segundo	Cada região compatível: 20	Não	O número máximo de solicitações de RetrieveAndGenerate API por segundo.
(Bases de conhecimento) RetrieveAndGenerateStream solicitações por segundo	Cada região compatível: 20	Não	O número máximo de solicitações de RetrieveAndGenerateStream API por segundo.
(Bases de conhecimento) StartIngestionJob solicitações por segundo	Cada região suportada: 0,1	Não	O número máximo de solicitações de StartIngestionJob API por segundo.
(Bases de conhecimento) UpdateDataSource solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de UpdateDataSource API por segundo.
(Bases de conhecimento) UpdateKnowledgeBase solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de UpdateKnowledgeBase API por segundo.
(Bases de conhecimento) Tamanho da consulta do usuário	Cada região com suporte: 1.000	Não	Tamanho máximo (em caracteres) de uma consulta do usuário.
(Personalização de modelos) Modelos personalizados por conta	Cada região compatível: 100	Sim	Número máximo de modelos personalizados em uma conta.
(Personalização de modelos) Implantações de modelos personalizados em andamento	Cada região compatível: 2	Sim	Número máximo de implantações de modelos personalizados em andamento
(Personalização de modelo) Tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação	Cada região compatível: 2 gigabites	Não	Tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação.
(Personalização de modelo) Comprimento máximo da linha para trabalhos de personalização da destilação	Cada região compatível: 16 kilobytes	Não	Comprimento máximo da linha no arquivo de entrada para trabalhos de personalização de destilação.
(Personalização de modelo) Número máximo de prompts para trabalhos de personalização de destilação	Cada região compatível: 15.000	Não	Número máximo de prompts necessários para trabalhos de personalização de destilação.
(Personalização de modelo) Número máximo de registros de treinamento para um trabalho de ajuste fino do Amazon Nova Canvas	Cada região com suporte: 10.000	Sim	Número máximo de registros permitidos para um trabalho de ajuste fino do Amazon Nova Canvas.
(Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova Micro V1	Cada região suportada: 32.000	Não	Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova Micro V1.
(Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova V1	Cada região suportada: 32.000	Não	Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova V1.
(Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Anthropic Claude 3 haiku 20240307 V1	Cada região suportada: 32.000	Não	Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Anthropic Claude 3 haiku 20240307 V1.
(Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1	Cada região compatível: 16.000	Não	Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1.
(Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1	Cada região suportada: 32.000	Não	Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1.
(Personalização de modelo) Número mínimo de prompts para trabalhos de personalização de destilação	Cada região compatível: 100	Não	Número mínimo de prompts necessário para trabalhos de personalização de destilação.
(Personalização de modelo) Trabalhos de personalização programados	Cada região com suporte: 10	Não	Número máximo de trabalhos de personalização programados.
(Personalização do modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova 2 Lite	Cada região compatível: 2.000	Não	A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova 2 Lite
(Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Lite	Cada região compatível: 2.000	Não	A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas para o Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Lite
(Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Micro	Cada região compatível: 2.000	Não	A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Micro
(Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Pro	Cada região compatível: 200	Não	A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas para o Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Pro
(Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Meta Llama 3.3 70B Instruct	Cada região compatível: 400	Não	A soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas ao Converse,, ConverseStream InvokeModel, e das InvokeModelWithResponseStream ações do Meta Llama 3.3 70B Instruct
(Personalização do modelo) Soma de tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova 2 Lite	Cada região compatível: 5.760.000.000	Não	A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova 2 Lite
(Personalização de modelo) Soma dos tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova Lite	Cada região compatível: 5.760.000.000	Não	A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Lite
(Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova Micro	Cada região compatível: 5.760.000.000	Não	A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Micro
(Personalização de modelo) Soma de tokens de implantação de modelo personalizado sob demanda por dia para o Amazon Nova Pro	Cada região compatível: 1.152.000.000	Não	A soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Pro
(Personalização de modelo) Soma dos tokens de implantação de modelos personalizados sob demanda por dia para o Meta Llama 3.3 70B Instruct	Cada região compatível: 432.000.000	Não	A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por dia enviados ao Converse,, ConverseStream InvokeModel, e das InvokeModelWithResponseStream ações do Meta Llama 3.3 70B Instruct
(Personalização do modelo) Soma de tokens de implantação de modelo personalizado sob demanda por minuto para o Amazon Nova 2 Lite	Cada região compatível: 4.000.000	Não	A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova 2 Lite
(Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Lite	Cada região compatível: 4.000.000	Não	A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Lite
(Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Micro	Cada região compatível: 4.000.000	Não	A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Micro
(Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Pro	Cada região suportada: 800.000	Não	A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e InvokeModelWithResponseStream ações para o Amazon Nova Pro
(Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para Meta Llama 3.3 70B Instruct	Cada região compatível: 300.000	Não	A soma dos tokens de implantação do modelo personalizado sob demanda de entrada e saída por minuto enviados ao Converse,, ConverseStream InvokeModel, e das InvokeModelWithResponseStream ações do Meta Llama 3.3 70B Instruct
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Amazon Nova 2 Lite	Cada região com suporte: 20.000	Sim	O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Amazon Nova 2 Lite.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Amazon Nova Lite	Cada região com suporte: 20.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Amazon Nova Lite.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Amazon Nova Micro	Cada região com suporte: 20.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Amazon Nova Micro.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Amazon Nova Pro	Cada região com suporte: 20.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Amazon Nova Pro.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Claude 3 Haiku v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Claude 3 Haiku.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Claude 3-5-Haiku v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Claude 3-5-Haiku.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 2 13B v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 2 13B.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 2 70B v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 2 70B.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.1 70B Instruct v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.1 70B Instruct.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.1 8B Instruct v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.1 8B Instruct.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 11B Instruct v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 11B Instruct.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 1B Instruct v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 1B Instruct.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 3B Instruct v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 3B Instruct.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 90B Instruct v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 90B Instruct.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.3 70B Instruct v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.3 70B Instruct.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Image Generator G1 V1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Image Generator.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Image Generator G1 V2	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Image Generator V2.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Multimodal Embeddings G1 v1	Cada região compatível: 50.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Multimodal Embeddings.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de pré-treinamento contínuo do Titan Text G1 - Express v1	Cada região compatível: 100.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de pré-treinamento contínuo do Titan Text Express.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Text G1 - Express v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Text Express.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de pré-treinamento contínuo do Titan Text G1 - Lite v1	Cada região compatível: 100.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de pré-treinamento contínuo do Titan Text Lite.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Text G1 - Lite v1	Cada região com suporte: 10.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Text Lite.
(Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Text G1 - Premier v1	Cada região com suporte: 20.000	Sim	Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Text Premier.
(Personalização de modelos) Número total de implantações de modelos personalizados	Cada região com suporte: 10	Sim	Número total de implantações de modelos personalizados
(Gerenciamento imediato) CreatePrompt solicitações por segundo	Cada região compatível: 2	Não	O número máximo de CreatePrompt solicitações por segundo.
(Gerenciamento imediato) CreatePromptVersion solicitações por segundo	Cada região compatível: 2	Não	O número máximo de CreatePromptVersion solicitações por segundo.
(Gerenciamento imediato) DeletePrompt solicitações por segundo	Cada região compatível: 2	Não	O número máximo de DeletePrompt solicitações por segundo.
(Gerenciamento imediato) GetPrompt solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de GetPrompt solicitações por segundo.
(Gerenciamento imediato) ListPrompts solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de ListPrompts solicitações por segundo.
(Gerenciamento de prompts) Prompts por conta	Cada região com suporte: 500	Sim	Número máximo de prompts.
(Gerenciamento imediato) UpdatePrompt solicitações por segundo	Cada região compatível: 2	Não	O número máximo de UpdatePrompt solicitações por segundo.
(Gerenciamento de prompts) Versões por prompt	Cada região com suporte: 10	Não	Número máximo de versões por prompt.
APIs por agente	Cada região compatível: 11	Sim	O número máximo APIs que você pode adicionar a um agente.
Grupos de ações por agente	Cada região compatível: 20	Sim	Número máximo de grupos de ações que podem ser adicionados a um agente.
Colaboradores de agente por agente	Cada região com suporte: 1.000	Sim	Número máximo de agentes colaboradores que você pode adicionar a um agente.
Agentes por conta	Cada região com suporte: 1.000	Sim	Número máximo de agentes em uma conta.
AssociateAgentKnowledgeBase solicitações por segundo	Cada região compatível: 6	Não	O número máximo de solicitações de AssociateAgentKnowledgeBase API por segundo.
Aliases associados por agente	Cada região com suporte: 10	Não	Número máximo de aliases que pode ser associado a um Agente.
Bases de conhecimento associadas por agente	Cada região compatível: 2	Sim	Número máximo de bases de conhecimento que podem ser associadas a um agente.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Amazon Nova 2 Multimodal Embeddings V1.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Amazon Nova Premier	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Amazon Nova Premier.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Haiku	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Haiku.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Opus	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Opus.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Sonnet	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Sonnet.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Haiku	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Haiku.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Sonnet	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Sonnet v2	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet v2.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.7 Sonnet	Cada região compatível: 1	Sim	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.7 Sonnet.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Haiku 4.5	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude Haiku 4.5.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Opus 4.5	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude Opus 4.5.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Opus 4.6	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude Opus 4.6.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Sonnet 4	Cada região compatível: 1	Sim	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude Sonnet 4.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Sonnet 4.5	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude Sonnet 4.5.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Sonnet 4.6	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude Sonnet 4.6.
Tamanho do arquivo de entrada de inferência em lote (em GB) para DeepSeek V3.2	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para a DeepSeek V3.2.
Tamanho do arquivo de entrada de inferência em lote (em GB) para v3 DeepSeek	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para a DeepSeek v3.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Devstral 2 123B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Devstral 2 123B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para GLM 4.7	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o GLM 4.7.
Tamanho do arquivo de entrada de inferência em lote (em GB) para GLM 4.7 Flash	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o GLM 4.7 Flash.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Gemma 3 12B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Gemma 3 12B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Gemma 3 27B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Gemma 3 27B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Gemma 3 4B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Gemma 3 4B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Kimi K2 Thinking	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Kimi K2 Thinking.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Kimi K2.5	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Kimi K2.5.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 405B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 405B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 70B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 70B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 8B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 8B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 11B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 11B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 1B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 1B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 3B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 3B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 90B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 90B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.3 70B Instruct	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.3 70B Instruct.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 4 Maverick	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Maverick.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 4 Scout	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Scout.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Magistral Small 2509	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Magistral Small 2509.
Tamanho do arquivo de entrada de inferência em lote (em GB) para MiniMax M2	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para MiniMax M2.
Tamanho do arquivo de entrada de inferência em lote (em GB) para MiniMax M2.1	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para MiniMax M2.1.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Ministral 3 14B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Ministral 3 14B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Ministral 3 8B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Ministral 3 8B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Ministral 3B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Ministral 3B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Mistral Large 2 (24.07)	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Large 2 (24.07).
Tamanho do arquivo de entrada de inferência em lote (em GB) para Mistral Large 3	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Large 3.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Mistral Small	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Small.
Tamanho do arquivo de entrada de inferência em lote (em GB) para NVIDIA Nemotron Nano 12B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o NVIDIA Nemotron Nano 12B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para NVIDIA Nemotron Nano 3 30B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o NVIDIA Nemotron Nano 3 30B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para NVIDIA Nemotron Nano 9B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o NVIDIA Nemotron Nano 9B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Nova 2 Lite	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova 2 Lite.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Lite V1	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Lite V1.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Micro V1	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Micro V1.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Pro V1	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Pro V1.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o OpenAI GPT OSS 120b	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS 120b.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o OpenAI GPT OSS 20b	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS 20b.
Tamanho do arquivo de entrada de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 120b	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS Safeguard 120b.
Tamanho do arquivo de entrada de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 20b	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS Safeguard 20b.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 235B	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 235B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 32B	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 32B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Coder 30B	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder 30B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Coder 480B	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder 480B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Coder Next	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder Next.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 Next 80B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Next 80B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Qwen3 VL 235B	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 VL 235B.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Titan Multimodal Embeddings G1	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Titan Multimodal Embeddings G1.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Titan Text Embeddings V2	Cada região compatível: 1	Não	Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Titan Text Embeddings V2.
Tamanho do arquivo de entrada de inferência em lote (em GB) para o Voxtral Mini 3B 2507	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Voxtral Mini 3B 2507.
Tamanho do arquivo de entrada de inferência em lote (em GB) para Voxtral Small 24B 2507	Cada região compatível: 1	Não	O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Voxtral Small 24B 2507.
Tamanho do trabalho de inferência em lote (em GB) para Qwen3 Next 80B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Next 80B.
Tamanho do trabalho de inferência em lote (em GB) para Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 100	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1.
Tamanho do trabalho de inferência em lote (em GB) para o Amazon Nova Premier	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Amazon Nova Premier.
Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Haiku	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Haiku.
Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Opus	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Opus.
Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Sonnet	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Sonnet.
Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.5 Haiku	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Haiku.
Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.5 Sonnet	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Sonnet.
Tamanho do trabalho de inferência em lote (em GB) para o 3.5 Sonnet v2	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Sonnet v2.
Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.7 Sonnet	Cada região compatível: 5	Sim	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.7 Sonnet.
Tamanho do trabalho de inferência em lote (em GB) para Claude Haiku 4.5	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude Haiku 4.5.
Tamanho do trabalho de inferência em lote (em GB) para Claude Opus 4.5	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude Opus 4.5.
Tamanho do trabalho de inferência em lote (em GB) para Claude Opus 4.6	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude Opus 4.6.
Tamanho do trabalho de inferência em lote (em GB) para o Claude Sonnet 4	Cada região compatível: 5	Sim	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude Sonnet 4.
Tamanho do trabalho de inferência em lote (em GB) para Claude Sonnet 4.5	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Claude Sonnet 4.5.
Tamanho do trabalho de inferência em lote (em GB) para Claude Sonnet 4.6	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude Sonnet 4.6.
Tamanho do trabalho de inferência em lote (em GB) para DeepSeek a V3.2	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para DeepSeek a V3.2.
Tamanho do trabalho de inferência em lote (em GB) para v3 DeepSeek	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para DeepSeek a v3.
Tamanho do trabalho de inferência em lote (em GB) para Devstral 2 123B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Devstral 2 123B.
Tamanho do trabalho de inferência em lote (em GB) para o GLM 4.7	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o GLM 4.7.
Tamanho do trabalho de inferência em lote (em GB) para o GLM 4.7 Flash	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o GLM 4.7 Flash.
Tamanho do trabalho de inferência em lote (em GB) para Gemma 3 12B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Gemma 3 12B.
Tamanho do trabalho de inferência em lote (em GB) para Gemma 3 27B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Gemma 3 27B.
Tamanho do trabalho de inferência em lote (em GB) para Gemma 3 4B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Gemma 3 4B.
Tamanho do trabalho de inferência em lote (em GB) para Kimi K2 Thinking	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Kimi K2 Thinking.
Tamanho do trabalho de inferência em lote (em GB) para Kimi K2.5	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Kimi K2.5.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 405B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 405B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 70B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 70B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 8B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 8B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 11B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 11B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 1B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 1B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 3B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 3B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 90B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 90B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.3 70B Instruct	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.3 70B Instruct.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 4 Maverick	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Maverick.
Tamanho do trabalho de inferência em lote (em GB) para o Llama 4 Scout	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Scout.
Tamanho do trabalho de inferência em lote (em GB) para Magistral Small 2509	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Magistral Small 2509.
Tamanho do trabalho de inferência em lote (em GB) para MiniMax M2	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para MiniMax M2.
Tamanho do trabalho de inferência em lote (em GB) para MiniMax M2.1	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para MiniMax M2.1.
Tamanho do trabalho de inferência em lote (em GB) para Ministral 3 14B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Ministral 3 14B.
Tamanho do trabalho de inferência em lote (em GB) para Ministral 3 8B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Ministral 3 8B.
Tamanho do trabalho de inferência em lote (em GB) para Ministral 3B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Ministral 3B.
Tamanho do trabalho de inferência em lote (em GB) para o Mistral Large 2 (24.07)	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Mistral Large 2 (24.07).
Tamanho do trabalho de inferência em lote (em GB) para Mistral Large 3	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Mistral Large 3.
Tamanho do trabalho de inferência em lote (em GB) para o Mistral Small	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Mistral Small.
Tamanho do trabalho de inferência em lote (em GB) para NVIDIA Nemotron Nano 12B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o NVIDIA Nemotron Nano 12B.
Tamanho do trabalho de inferência em lote (em GB) para NVIDIA Nemotron Nano 3 30B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o NVIDIA Nemotron Nano 3 30B.
Tamanho do trabalho de inferência em lote (em GB) para NVIDIA Nemotron Nano 9B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B.
Tamanho do trabalho de inferência em lote (em GB) para o Nova Lite V1	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Lite V1.
Tamanho do trabalho de inferência em lote (em GB) para o Nova Micro V1	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Micro V1.
Tamanho do trabalho de inferência em lote (em GB) para o Nova Pro V1	Cada região compatível: 100	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Pro V1.
Tamanho do trabalho de inferência em lote (em GB) para o OpenAI GPT OSS 120b	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS 120b.
Tamanho do trabalho de inferência em lote (em GB) para o OpenAI GPT OSS 20b	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS 20b.
Tamanho do trabalho de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 120b	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b.
Tamanho do trabalho de inferência em lote (em GB) para OpenAI GPT OSS Safeguard 20b	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b.
Tamanho do trabalho de inferência em lote (em GB) para Qwen3 235B	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 235B.
Tamanho do trabalho de inferência em lote (em GB) para Qwen3 32B	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 32B.
Tamanho do trabalho de inferência em lote (em GB) para Qwen3 Coder 30B	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder 30B.
Tamanho do trabalho de inferência em lote (em GB) para o Qwen3 Coder 480B	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder 480B.
Tamanho do trabalho de inferência em lote (em GB) para o Qwen3 Coder Next	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder Next.
Tamanho do trabalho de inferência em lote (em GB) para Qwen3 VL 235B	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 VL 235B.
Tamanho do trabalho de inferência em lote (em GB) para o Titan Multimodal Embeddings G1	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Titan Multimodal Embeddings G1.
Tamanho do trabalho de inferência em lote (em GB) para Titan Text Embeddings V2	Cada região compatível: 5	Não	Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Titan Text Embeddings V2.
Tamanho do trabalho de inferência em lote (em GB) para o Voxtral Mini 3B 2507	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Voxtral Mini 3B 2507.
Tamanho do trabalho de inferência em lote (em GB) para o Voxtral Small 24B 2507	Cada região compatível: 5	Não	O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Voxtral Small 24B 2507.
Caracteres nas instruções do agente	Cada região com suporte: 20.000	Não	Número máximo de caracteres nas instruções de um agente.
Trabalhos simultâneos de importação de modelos	Cada região compatível: 1	Não	Número máximo de trabalhos de importação de modelos que estão em andamento ao mesmo tempo.
CreateAgent solicitações por segundo	Cada região compatível: 6	Não	O número máximo de solicitações de CreateAgent API por segundo.
CreateAgentActionGroup solicitações por segundo	Cada região compatível: 12	Não	O número máximo de solicitações de CreateAgentActionGroup API por segundo.
CreateAgentAlias solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de CreateAgentAlias API por segundo.
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Haiku	Cada região compatível: 2.000	Não	O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto. A cota considera a soma combinada InvokeModel e os InvokeModelWithResponseStream tokens do Anthropic Claude 3.5 Haiku.
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet V2	us-west-2: 500 Cada uma das outras regiões compatíveis: 100	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Haiku do Anthropic Claude 3.5	Cada região compatível: 4.000.000	Sim	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3.5 Haiku. ConverseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet V2	us-west-2: 4,000,000 Cada uma das outras regiões suportadas: 800.000	Sim	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelos entre regiões por minuto para o Amazon Nova 2 Lite	Cada região compatível: 2.000	Não	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova 2 Omni	Cada região compatível: 2.000	Não	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova 2 Pro Preview	Cada região compatível: 100	Não	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Lite	us-east-1:4.000 us-east-2:4.000 us-west-1:4.000 us-west-2:4.000 Cada uma das outras regiões suportadas: 400	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Micro	us-east-1:4.000 us-east-2:4.000 us-west-2:4.000 Cada uma das outras regiões suportadas: 400	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Premier V1	Cada região com suporte: 500	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Pro	Cada região com suporte: 500	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Haiku	us-east-1: 2.000 us-west-2: 2.000 ap-northeast-1:400 ap-southeast-1 ap-southeast-1:400 Cada uma das outras regiões compatíveis: 800	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Haiku.
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Opus	Cada região compatível: 100	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Sonnet	us-east-1: 1.000 us-west-2: 1.000 Cada uma das outras regiões compatíveis: 200	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet.
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet	us-west-2: 500 ap-northeast-1:40 ap-southeast-1 ap-southeast-1:40 eu-central-1:40 eu-west-1:40 eu-west-3:40 Cada uma das outras regiões compatíveis: 100	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.7 Sonnet V1	us-east-1:250 us-east-2:250 us-west-2:250 eu-central-1:100 eu-north-1:100 eu-west-1:100 eu-west-3:100 Cada uma das outras regiões compatíveis: 50	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Haiku 4.5	Cada região com suporte: 1.000	Sim	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4 V1	Cada região compatível: 200	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4.1	Cada região compatível: 50	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.5	Cada região com suporte: 500	Sim	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.6 V1	Cada região com suporte: 500	Sim	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.6 V1 1M Context Length	Cada região compatível: 5	Sim	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para Anthropic Claude Opus 4.6 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1	Cada região compatível: 200	Sim	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length	Cada região compatível: 5	Sim	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1	Cada região com suporte: 1.000	Sim	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length	Cada região compatível: 5	Sim	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.6	Cada região com suporte: 10.000	Sim	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude Sonnet 4.6 1M Context Length	Cada região com suporte: 500	Sim	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Cohere Embed V4	Cada região compatível: 2.000	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelos entre regiões por minuto para DeepSeek R1 V1	Cada região compatível: 200	Não	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para DeepSeek R1 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 405B Instruct	Cada região compatível: 400	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 70B Instruct	Cada região compatível: 800	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 8B Instruct	Cada região compatível: 1.600	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 1B Instruct	Cada região compatível: 1.600	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 3B Instruct	Cada região compatível: 1.600	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.3 70B Instruct	Cada região compatível: 800	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 4 Maverick V1	Cada região compatível: 800	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 4 Scout V1	Cada região compatível: 800	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Mistral Pixtral Large 25.02 V1	Cada região com suporte: 10	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Conservative Upscale	Cada região compatível: 4	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Conservative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Control Sketch	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Sketch. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Control Structure	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Structure. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Creative Upscale	Cada região compatível: 4	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Erase Object	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Erase Object. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Fast Upscale	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Fast Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Inpaint	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Inpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Outpaint	Cada região compatível: 4	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Outpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Remove Background	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Remove Background. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Search and Recolor	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Recolor. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Search and Replace	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Replace. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Style Guide	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Guide. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Style Transfer	Cada região compatível: 20	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Transfer. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Twelve Labs Marengo	Cada região compatível: 200	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Marengo. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Twelve Labs Pegasus	Cada região compatível: 120	Sim	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o TwelveLabs Marengo Embed 3.0	Cada região com suporte: 1.000	Sim	O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o TwelveLabs Marengo Embed 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X4 V1	Cada região com suporte: 10	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X5 V1	Cada região com suporte: 10	Não	Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova 2 Lite	Cada região suportada: 8.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para Amazon Nova 2 Omni	Cada região suportada: 8.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova 2 Pro Preview	Cada região com suporte: 1.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Lite	us-east-1: 8,000,000 us-east-2: 8,000,000 us-west-1: 8,000,000 us-west-2: 8,000,000 Cada uma das outras regiões suportadas: 400.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Micro	us-east-1: 8,000,000 us-east-2: 8,000,000 us-west-2: 8,000,000 Cada uma das outras regiões suportadas: 400.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Premier V1	Cada região compatível: 2.000.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Pro	Cada região compatível: 2.000.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Haiku	us-east-1: 4,000,000 us-west-2: 4,000,000 ap-northeast-1:400.000 ap-southeast-1:400.000 Cada uma das outras regiões suportadas: 600.000	Sim	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3 Haiku. ConverseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Opus	Cada região suportada: 800.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Sonnet	us-east-1: 2,000,000 us-west-2: 2,000,000 Cada uma das outras regiões suportadas: 400.000	Sim	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. ConverseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet	us-west-2: 4,000,000 ap-northeast-1:400.000 ap-southeast-1:400.000 eu-central-1:400.000 eu-west-1:400.000 eu-west-3:400.000 Cada uma das outras regiões suportadas: 800.000	Sim	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.7 Sonnet V1	us-east-1: 1,000,000 us-east-2: 1,000,000 us-west-2: 1,000,000 eu-central-1:100.000 eu-north-1:100.000 eu-west-1:100.000 eu-west-3:100.000 Cada uma das outras regiões suportadas: 50.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Haiku 4.5	Cada região compatível: 5.000.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4 V1	Cada região compatível: 200.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4.1	Cada região compatível: 500.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.5	Cada região compatível: 2.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.6 V1	Cada região compatível: 2.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.6 V1 1M Context Length	Cada região com suporte: 1.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para Anthropic Claude Opus 4.6 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1	Cada região compatível: 200.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length	Cada região com suporte: 1.000.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1	Cada região compatível: 5.000.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length	Cada região com suporte: 1.000.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.6	Cada região compatível: 5.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude Sonnet 4.6 1M Context Length	Cada região com suporte: 1.000.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Cohere Embed V4	Cada região compatível: 300.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência do modelo entre regiões por minuto para DeepSeek R1 V1	Cada região compatível: 200.000	Sim	O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para DeepSeek R1 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 405B Instruct	Cada região suportada: 800.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 70B Instruct	Cada região suportada: 600.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 8B Instruct	Cada região suportada: 600.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 1B Instruct	Cada região suportada: 600.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 3B Instruct	Cada região suportada: 600.000	Sim	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.3 70B Instruct	Cada região suportada: 600.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 4 Maverick V1	Cada região suportada: 600.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 4 Scout V1	Cada região suportada: 600.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Mistral Pixtral Large 25.02 V1	Cada região compatível: 80.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X4 V1	Cada região compatível: 150.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X5 V1	Cada região compatível: 150.000	Sim	Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Modelos personalizados com status de criação por conta	Cada região compatível: 2	Sim	Número máximo de modelos personalizados com status de criação.
DeleteAgent solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de DeleteAgent API por segundo.
DeleteAgentActionGroup solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de DeleteAgentActionGroup API por segundo.
DeleteAgentAlias solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de DeleteAgentAlias API por segundo.
DeleteAgentVersion solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de DeleteAgentVersion API por segundo.
DisassociateAgentKnowledgeBase solicitações por segundo	Cada região compatível: 4	Não	O número máximo de solicitações de DisassociateAgentKnowledgeBase API por segundo.
Grupos de ações habilitados por agente	Cada região compatível: 15	Sim	Número máximo de grupos de ações que podem ser habilitados em um agente.
Endpoints por perfil de inferência	Cada região compatível: 5	Não	Número máximo de endpoints em um perfil de inferência. Um endpoint é definido por um modelo e pela região para a qual as solicitações de invocação do modelo são enviadas.
GetAgent solicitações por segundo	Cada região compatível: 15	Não	O número máximo de solicitações de GetAgent API por segundo.
GetAgentActionGroup solicitações por segundo	Cada região compatível: 20	Não	O número máximo de solicitações de GetAgentActionGroup API por segundo.
GetAgentAlias solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de GetAgentAlias API por segundo.
GetAgentKnowledgeBase solicitações por segundo	Cada região compatível: 15	Não	O número máximo de solicitações de GetAgentKnowledgeBase API por segundo.
GetAgentVersion solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de GetAgentVersion API por segundo.
Solicitações globais de inferência de modelos entre regiões por minuto para o Amazon Nova 2 Lite	Cada região com suporte: 2.000	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações globais de inferência de modelos entre regiões por minuto para o Amazon Nova 2 Omni	Cada região com suporte: 2.000	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações globais de inferência de modelos entre regiões por minuto para o Amazon Nova 2 Pro Preview	Cada região compatível: 100	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Haiku 4.5	Cada região com suporte: 1.000	Sim	Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações globais de inferência de modelos entre regiões por minuto para Anthropic Claude Opus 4.5	Cada região com suporte: 500	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações globais de inferência de modelos entre regiões por minuto para Anthropic Claude Opus 4.6 V1	Cada região com suporte: 500	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência do modelo global entre regiões por minuto para Anthropic Claude Opus 4.6 V1 1M Context Length	Cada região compatível: 5	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para Anthropic Claude Opus 4.6 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4 V1	Cada região compatível: 200	Sim	Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1	Cada região com suporte: 1.000	Sim	Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length	Cada região compatível: 5	Sim	Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações globais de inferência de modelos entre regiões por minuto para o Anthropic Claude Sonnet 4.6	Cada região com suporte: 10.000	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações globais de inferência de modelos entre regiões por minuto para Anthropic Claude Sonnet 4.6 1M Context Length	Cada região com suporte: 500	Sim	O número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo global entre regiões por minuto para o Cohere Embed V4	Cada região com suporte: 2.000	Sim	Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Tokens globais de inferência de modelos entre regiões por dia para o Amazon Nova 2 Lite	Cada região suportada: 11.520.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Amazon Nova 2 Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens globais de inferência de modelos entre regiões por dia para Amazon Nova 2 Omni	Cada região suportada: 11.520.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Amazon Nova 2 Omni. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens globais de inferência de modelos entre regiões por dia para o Amazon Nova 2 Pro Preview	Cada região compatível: 1.440.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Amazon Nova 2 Pro Preview. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Haiku 4.5	Cada região suportada: 7.200.000.000	Não	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens globais de inferência de modelo entre regiões por dia para Anthropic Claude Opus 4.5	Cada região suportada: 2.880.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Opus 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens globais de inferência de modelo entre regiões por dia para Anthropic Claude Opus 4.6 V1	Cada região suportada: 2.880.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Opus 4.6 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por dia para Anthropic Claude Opus 4.6 V1 1M Context Length	Cada região compatível: 1.440.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para Anthropic Claude Opus 4.6 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4 V1	Cada região compatível: 288.000.000	Não	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4.5 V1	Cada região suportada: 7.200.000.000	Não	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length	Cada região compatível: 1.440.000.000	Não	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens globais de inferência de modelo entre regiões por dia para o Anthropic Claude Sonnet 4.6	Cada região suportada: 7.200.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.6. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por dia para Anthropic Claude Sonnet 4.6 1M Context Length	Cada região compatível: 1.440.000.000	Não	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.6 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por dia para o Cohere Embed V4	Cada região compatível: 432.000.000	Não	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens globais de inferência de modelo entre regiões por minuto para o Amazon Nova 2 Lite	Cada região suportada: 8.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência do modelo global entre regiões por minuto para o Amazon Nova 2 Omni	Cada região suportada: 8.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Omni. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens globais de inferência do modelo entre regiões por minuto para o Amazon Nova 2 Pro Preview	Cada região com suporte: 1.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Pro Preview. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Haiku 4.5	Cada região compatível: 5.000.000	Sim	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Opus 4.5	Cada região compatível: 2.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Opus 4.6 V1	Cada região compatível: 2.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.6 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Opus 4.6 V1 1M Context Length	Cada região com suporte: 1.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para Anthropic Claude Opus 4.6 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4 V1	Cada região compatível: 200.000	Sim	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1	Cada região compatível: 5.000.000	Sim	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length	Cada região com suporte: 1.000.000	Sim	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência do modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.6	Cada região compatível: 5.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para Anthropic Claude Sonnet 4.6 1M Context Length	Cada região com suporte: 1.000.000	Sim	O número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.6 1M Context Length. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo global entre regiões por minuto para o Cohere Embed V4	Cada região compatível: 300.000	Sim	Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Modelos importados por conta	Cada região compatível: 3	Sim	Número máximo de modelos importados em uma conta.
Perfis de inferência por conta	Cada região com suporte: 1.000	Sim	Número máximo de perfis de inferência em uma conta.
ListAgentActionGroups solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListAgentActionGroups API por segundo.
ListAgentAliases solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListAgentAliases API por segundo.
ListAgentKnowledgeBases solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListAgentKnowledgeBases API por segundo.
ListAgentVersions solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListAgentVersions API por segundo.
ListAgents solicitações por segundo	Cada região com suporte: 10	Não	O número máximo de solicitações de ListAgents API por segundo.
Número mínimo de registros por trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1.
Número mínimo de registros por trabalho de inferência em lote para o Amazon Nova Premier	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier.
Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Haiku	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Haiku.
Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Opus	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Opus.
Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Sonnet	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet.
Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Haiku	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku.
Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Sonnet	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet.
Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Sonnet v2	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2.
Número mínimo de registros por trabalho de inferência em lote para o Claude 3.7 Sonnet	Cada região compatível: 100	Sim	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet.
Número mínimo de registros por trabalho de inferência em lote para Claude Haiku 4.5	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Haiku 4.5.
Número mínimo de registros por trabalho de inferência em lote para Claude Opus 4.5	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.5.
Número mínimo de registros por trabalho de inferência em lote para Claude Opus 4.6	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.6.
Número mínimo de registros por trabalho de inferência em lote para o Claude Sonnet 4	Cada região compatível: 100	Sim	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.
Número mínimo de registros por tarefa de inferência em lote para Claude Sonnet 4.5.	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.5.
Número mínimo de registros por tarefa de inferência em lote para Claude Sonnet 4.6	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.6.
Número mínimo de registros por trabalho de inferência em lote para DeepSeek a V3.2	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para a DeepSeek V3.2.
Número mínimo de registros por trabalho de inferência em lote para v3 DeepSeek	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para a DeepSeek v3.
Número mínimo de registros por trabalho de inferência em lote para Devstral 2 123B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Devstral 2 123B.
Número mínimo de registros por trabalho de inferência em lote para o GLM 4.7	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7.
Número mínimo de registros por tarefa de inferência em lote para o GLM 4.7 Flash	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7 Flash.
Número mínimo de registros por trabalho de inferência em lote para Gemma 3 12B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 12B.
Número mínimo de registros por trabalho de inferência em lote para Gemma 3 27B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 27B.
Número mínimo de registros por trabalho de inferência em lote para Gemma 3 4B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 4B.
Número mínimo de registros por trabalho de inferência em lote para Kimi K2 Thinking	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Kimi K2 Thinking.
Número mínimo de registros por trabalho de inferência em lote para Kimi K2.5	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Kimi K2.5.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 405B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 70B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 8B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 11B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 1B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 3B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 90B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.3 70B Instruct	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct.
Número mínimo de registros por trabalho de inferência em lote para o Llama 4 Maverick	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick.
Número mínimo de registros por trabalho de inferência em lote para o Llama 4 Scout	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout.
Número mínimo de registros por tarefa de inferência em lote para Magistral Small 2509	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Magistral Small 2509.
Número mínimo de registros por trabalho de inferência em lote para MiniMax M2	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.
Número mínimo de registros por trabalho de inferência em lote para MiniMax M2.1	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.1.
Número mínimo de registros por tarefa de inferência em lote para Ministral 3 14B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Ministral 3 14B.
Número mínimo de registros por tarefa de inferência em lote para Ministral 3 8B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3 8B.
Número mínimo de registros por trabalho de inferência em lote para o Ministral 3B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3B.
Número mínimo de registros por trabalho de inferência em lote para o Mistral Large 2 (24.07)	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07).
Número mínimo de registros por trabalho de inferência em lote para Mistral Large 3	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Mistral Large 3.
Número mínimo de registros por trabalho de inferência em lote para o Mistral Small	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small.
Número mínimo de registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 12B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 12B.
Número mínimo de registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 3 30B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B.
Número mínimo de registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 9B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B.
Número mínimo de registros por trabalho de inferência em lote para Nova 2 Lite	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova 2 Lite.
Número mínimo de registros por trabalho de inferência em lote para o Nova Lite V1	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1.
Número mínimo de registros por trabalho de inferência em lote para o Nova Micro V1	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1.
Número mínimo de registros por trabalho de inferência em lote para o Nova Pro V1	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1.
Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS 120b	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b.
Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS 20b	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b.
Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b.
Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b.
Número mínimo de registros por trabalho de inferência em lote para o Qwen3 235B	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 235B.
Número mínimo de registros por trabalho de inferência em lote para o Qwen3 32B	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 32B.
Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder 30B	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B.
Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder 480B	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B.
Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder Next	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder Next.
Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Next 80B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Next 80B.
Número mínimo de registros por tarefa de inferência em lote para Qwen3 VL 235B	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 VL 235B.
Número mínimo de registros por trabalho de inferência em lote para o Titan Multimodal Embeddings G1	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1.
Número mínimo de registros por trabalho de inferência em lote para o Titan Text Embeddings V2	Cada região compatível: 100	Não	Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2.
Número mínimo de registros por tarefa de inferência em lote para o Voxtral Mini 3B 2507	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Mini 3B 2507.
Número mínimo de registros por tarefa de inferência em lote para o Voxtral Small 24B 2507	Cada região compatível: 100	Não	O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Small 24B 2507.
Modelo de tokens otimizados para latência máxima de invocação por dia para o Amazon Nova Pro V1	Cada região suportada: 57.600.000	Não	O número máximo de tokens que você pode enviar para inferência de modelo com latência otimizada em um dia para o Amazon Nova Pro V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Número máximo de tokens de invocação do modelo por dia para o Amazon Nova 2 Lite (o dobro para chamadas entre regiões)	Cada região compatível: 5.760.000.000	Não	Número máximo diário de tokens para inferência de modelos para o Amazon Nova 2 Lite. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Amazon Nova 2 Omni (o dobro para chamadas entre regiões)	Cada região compatível: 5.760.000.000	Não	Número máximo diário de tokens para inferência de modelos para o Amazon Nova 2 Omni. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação do modelo por dia para o Amazon Nova 2 Pro Preview (dobrado para chamadas entre regiões)	Cada região compatível: 720.000.000	Não	Número máximo diário de tokens para inferência de modelos para o Amazon Nova 2 Pro Preview. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Amazon Nova Premier V1 (dobrado para chamadas entre regiões)	Cada região compatível: 1.440.000.000	Não	Máximo diário de tokens para inferência de modelo para o Amazon Nova Premier V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Anthropic Claude 3 Haiku (dobrado para chamadas entre regiões)	us-east-1:2.880.000.000 us-west-2:2.880.000.000 ap-northeast-1:288.000.000 ap-southeast-1:288.000.000 Cada uma das outras regiões suportadas: 432.000.000	Não	Número máximo diário de tokens para inferência de modelos para Anthropic Claude 3 Haiku. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Anthropic Claude 3.5 Haiku (dobrado para chamadas entre regiões)	Cada região suportada: 2.880.000.000	Não	Número máximo diário de tokens para inferência de modelos para Anthropic Claude 3.5 Haiku. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Anthropic Claude 3.5 Sonnet V1 (dobrado para chamadas entre regiões)	Cada região suportada: 2.880.000.000	Não	Número máximo diário de tokens para inferência de modelo para Anthropic Claude 3.5 Sonnet V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Anthropic Claude 3.5 Sonnet V2 (dobrado para chamadas entre regiões)	us-east-1:2.880.000.000 us-west-2:2.880.000.000 Cada uma das outras regiões suportadas: 576.000.000	Não	Número máximo diário de tokens para inferência de modelo para Anthropic Claude 3.5 Sonnet V2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Anthropic Claude 3.7 Sonnet V1 (dobrado para chamadas entre regiões)	Cada região compatível: 720.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude 3.7 Sonnet V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Anthropic Claude Haiku 4.5 (dobrado para chamadas entre regiões)	Cada região suportada: 3.600.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude Haiku 4.5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Anthropic Claude Opus 4 V1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude Opus 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Anthropic Claude Opus 4.1 (dobrado para chamadas entre regiões)	Cada região compatível: 360.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude Opus 4.1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação do modelo por dia para o Anthropic Claude Opus 4.5 (dobrado para chamadas entre regiões)	Cada região compatível: 1.440.000.000	Não	Número máximo diário de tokens para inferência de modelos para Anthropic Claude Opus 4.5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Anthropic Claude Opus 4.6 com comprimento de contexto de 1 milhão (dobrado para chamadas entre regiões)	Cada região compatível: 720.000.000	Não	Número máximo diário de tokens para inferência de modelo para Anthropic Claude Opus 4.6 1M Context Length. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Anthropic Claude Opus 4.6 V1 (dobrado para chamadas entre regiões)	Cada região compatível: 1.440.000.000	Não	Número máximo diário de tokens para inferência de modelo para Anthropic Claude Opus 4.6 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4 V1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4 V1 1M Context Length (dobrado para chamadas entre regiões)	Cada região compatível: 720.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4 V1 1M Context Length. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4.5 V1 (dobrado para chamadas entre regiões)	Cada região suportada: 3.600.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4.5 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Máximo de tokens de invocação de modelo por dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length (dobrado para chamadas entre regiões)	Cada região compatível: 720.000.000	Não	Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Anthropic Claude Sonnet 4.6 (dobrado para chamadas entre regiões)	Cada região suportada: 3.600.000.000	Não	Número máximo diário de tokens para inferência de modelos para Anthropic Claude Sonnet 4.6. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Cohere Embed V4 (dobrado para chamadas entre regiões)	Cada região compatível: 216.000.000	Não	Máximo diário de tokens para inferência de modelo para o Cohere Embed V4. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para DeepSeek R1 V1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000	Não	Tokens máximos diários para inferência de modelo para DeepSeek R1 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação do modelo por dia para DeepSeek V3 V1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelo para DeepSeek V3 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para a DeepSeek V3.2 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Tokens máximos diários para inferência de modelo para a DeepSeek V3.2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o GPT OSS Safeguard 120B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o GPT OSS Safeguard 120B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o GPT OSS Safeguard 20B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o GPT OSS Safeguard 20B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Gemma 3 12B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelo para Gemma 3 12B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Gemma 3 27B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Tokens máximos diários para inferência de modelo para Gemma 3 27B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Gemma 3 4B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelo para Gemma 3 4B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação do modelo por dia para o Kimi K2 Thinking (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelos para Kimi K2 Thinking. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Magistral Small 1.2 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelos para Magistral Small 1.2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Minimax M2 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelo para Minimax M2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Minimax M2.1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Tokens máximos diários para inferência de modelo para Minimax M2.1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Ministral 14B 3.0 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o Ministral 14B 3.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Ministral 3B 3.0 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o Ministral 3B 3.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Ministral 8B 3.0 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o Ministral 8B 3.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Mistral Devstral 2 123b (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Tokens máximos diários para inferência de modelo para Mistral Devstral 2 123b. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Mistral Large 3 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelo para Mistral Large 3. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação do modelo por dia para o Moonshot AI Kimi K2.5 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para Moonshot AI Kimi K2.5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação de modelos por dia para o NVIDIA Nemotron Nano 2 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelos para NVIDIA Nemotron Nano 2. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para NVIDIA Nemotron Nano 2 VL (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelos para NVIDIA Nemotron Nano 2 VL. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação do modelo por dia para o Nemotron Nano 3 30B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Tokens máximos diários para inferência de modelo para Nemotron Nano 3 30B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o OpenAI GPT OSS 120B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o OpenAI GPT OSS 120B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o OpenAI GPT OSS 20B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o OpenAI GPT OSS 20B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Qwen3 235B a22b 2507 V1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo de tokens diários para inferência de modelo para o Qwen3 235B a22b 2507 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Tokens máximos de invocação de modelo por dia para o Qwen3 32B V1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o Qwen3 32B V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Máximo de tokens de invocação de modelo por dia para o Qwen3 Coder 30B a3b V1 (duplicado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo de tokens diários para inferência de modelo para o Qwen3 Coder 30B a3b V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Máximo de tokens de invocação de modelo por dia para o Qwen3 Coder 480B a35b V1 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo de tokens diários para inferência de modelo para o Qwen3 Coder 480B a35b V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Número máximo de tokens de invocação do modelo por dia para o Qwen3 Coder Next (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para o Qwen3 Coder Next. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Qwen3 Next 80B A3B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para Qwen3 Next 80B A3B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Qwen3 VL 235B A22B (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Tokens máximos diários para inferência de modelo para Qwen3 VL 235B A22B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Voxtral Mini 1.0 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelos para o Voxtral Mini 1.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para o Voxtral Small 1.0 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelo para o Voxtral Small 1.0. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Z.ai GLM-4.7 (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Máximo diário de tokens para inferência de modelo para Z.ai GLM-4.7. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Modelo de tokens máximos de invocação por dia para Z.ai GLM-4.7 Flash (dobrado para chamadas entre regiões)	Cada região compatível: 144.000.000.000	Não	Número máximo diário de tokens para inferência de modelo para Z.ai GLM-4.7 Flash. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado.
Unidades de modelo para Throughputs provisionados sem compromisso entre modelos base	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser distribuídas em Throughputs provisionados sem compromisso para modelos base
Unidades de modelo para Throughputs provisionados sem compromisso entre modelos personalizados	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser distribuídas em Throughputs provisionados sem compromisso para modelos personalizados
Unidades de modelo por modelo provisionado para o AI21 Labs Jurassic-2 Mid	Cada região compatível: 0	Sim	O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Labs Jurassic-2 Mid. AI21
Unidades de modelo por modelo provisionado para o AI21 Labs Jurassic-2 Ultra	Cada região compatível: 0	Sim	O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Labs Jurassic-2 Ultra. AI21
Unidades de modelo por modelo provisionado para Amazon Nova 2 Lite V1.0 256K	Cada região compatível: 0	Sim	O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Nova 2 Lite V1.0 256K.
Unidades de modelo por modelo provisionado para o Amazon Nova Canvas	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Nova Canvas.
Unidades de modelo por modelo provisionado para o Amazon Titan Embeddings G1 - Text	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Embeddings G1 - Text.
Unidades de modelo por modelo provisionado para o Gerador de Imagens do Amazon Titan G1	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Gerador de Imagens do Amazon Titan G1.
Unidades de modelo por modelo provisionado para o Gerador de Imagens do Amazon Titan G2	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Gerador de Imagens do Amazon Titan G2.
Unidades de modelo por modelo provisionado para o Amazon Titan Lite V1 4K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Lite V1 4K.
Unidades de modelo por modelo provisionado para o Amazon Titan Multimodal Embeddings G1	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Multimodal Embeddings G1.
Unidades de modelo por modelo provisionado para o Amazon Titan Text Embeddings V2	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Embeddings V2.
Unidades de modelo por modelo provisionado para o Amazon Titan Text G1 - Express 8K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text G1 - Express 8K.
Unidades de modelo por modelo provisionado para o Amazon Titan Text Premier V1 32K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Premier V1 32K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Haiku 200K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Haiku 200K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Haiku 48K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Haiku 48K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Sonnet 200K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Sonnet 200K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Sonnet 28K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Sonnet 28K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 16K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 16K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 200K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 200K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 64K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 64K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 18K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 18K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 200K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 200K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 51K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 51K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 18K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 18K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 200K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 200K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 51K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 51K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 18K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 18K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 200K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 200K.
Unidades de modelo por modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 51K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 51K.
Unidades de modelo por modelo provisionado para o Anthropic Claude Instant V1 100K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude Instant V1 100K.
Unidades de modelo por modelo provisionado para o Anthropic Claude V2 100K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2 100K.
Unidades de modelo por modelo provisionado para o Anthropic Claude V2 18K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2 18K.
Unidades de modelo por modelo provisionado para o Anthropic Claude V2.1 18K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2.1 18K.
Unidades de modelo por modelo provisionado para o Anthropic Claude V2.1 200K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2.1 200K.
Unidades de modelo por modelo provisionado para o Cohere Command	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command.
Unidades de modelo por modelo provisionado para o Cohere Command Light	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command Light.
Unidades de modelo por modelo provisionado para o Cohere Command R	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command R 128k.
Unidades de modelo por modelo provisionado para o Cohere Command R Plus	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command R Plus 128k.
Unidades de modelo por modelo provisionado para o Cohere Embed English	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Embed English.
Unidades de modelo por modelo provisionado para o Cohere Embed Multilingual	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Embed Multilingual.
Unidades de modelo por modelo provisionado para o Meta Llama 2 13B	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 13B.
Unidades de modelo por modelo provisionado para o Meta Llama 2 70B	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 70B.
Unidades de modelo por modelo provisionado para o Meta Llama 2 Chat 13B	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 Chat 13B.
Unidades de modelo por modelo provisionado para o Meta Llama 2 Chat 70B	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 Chat 70B.
Unidades de modelo por modelo provisionado para o Meta Llama 3 70B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3 70B Instruct.
Unidades de modelo por modelo provisionado para o Meta Llama 3 8B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3 8B Instruct.
Unidades de modelo por modelo provisionado para o Meta Llama 3.1 70B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.1 70B Instruct.
Unidades de modelo por modelo provisionado para o Meta Llama 3.1 8B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.1 8B Instruct.
Unidades de modelo por modelo provisionado para o Meta Llama 3.2 11B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 11B Instruct.
Unidades de modelo por modelo provisionado para o Meta Llama 3.2 1B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 1B Instruct.
Unidades de modelo por modelo provisionado para o Meta Llama 3.2 3B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 3B Instruct.
Unidades de modelo por modelo provisionado para o Meta Llama 3.2 90B Instruct	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 90B Instruct.
Unidades de modelo por modelo provisionado para o Mistral Large 2407	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Mistral Large 2407.
Unidades de modelo por modelo provisionado para o Mistral Small	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Mistral Small.
Unidades de modelo por modelo provisionado para o Stability.ai Stable Diffusion XL 0.8	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Stability.ai Stable Diffusion XL 0.8
Unidades de modelo por modelo provisionado para o Stability.ai Stable Diffusion XL 1.0	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Stability.ai Stable Diffusion XL 1.0.
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 128k para o Amazon Nova Micro	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 128k para o Amazon Nova Micro
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Micro	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Micro
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Pro	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Pro
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Lite	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Lite
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Pro	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Pro.
Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Llama 4 Scout 17B Instruct 10M	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Scout 17B Instruct 10M, com compromisso.
Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Llama 4 Scout 17B Instruct 128 K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Scout 17B Instruct 128 K, com compromisso.
Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Maverick 4 Scout 17B Instruct 128 K	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Maverick 17B Instruct 128 K, com compromisso.
Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Maverick 4 Scout 17B Instruct 1M	Cada região compatível: 0	Sim	Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Maverick 17B Instruct 1M, com compromisso.
Unidades modelo sem compromisso para taxa de transferência provisionada criadas para o modelo básico Amazon Nova 2 Lite V1.0 256K	Cada região compatível: 0	Não	O número máximo de unidades de modelo que podem ser alocadas para uma taxa de transferência provisionada criada para o modelo básico Amazon Nova 2 Lite V1.0 256K, sem compromisso
Unidades de modelo sem compromisso para taxa de transferência provisionada criadas para o modelo personalizado Amazon Nova 2 Lite V1.0 256K	Cada região compatível: 0	Não	O número máximo de unidades de modelo que podem ser alocadas a uma taxa de transferência provisionada criada para o modelo personalizado Amazon Nova 2 Lite V1.0 256K, sem compromisso.
Número de roteadores de prompts personalizados por conta	Cada região com suporte: 500	Não	Número máximo de roteadores de prompts personalizados que você pode criar por conta e por região.
Solicitações de inferência de modelo sob demanda e otimizadas para latência por minuto para o Amazon Nova Pro V1	Cada região com suporte: 10	Não	O número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda e otimizadas para latência por minuto para o Meta Llama 3.1 405B Instruct	Cada região compatível: 100	Não	Número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda e otimizadas para latência por minuto para o Meta Llama 3.1 70B Instruct	Cada região compatível: 100	Não	Número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda e otimizados para latência por minuto para o Amazon Nova Pro V1	Cada região compatível: 40.000	Não	O número máximo de tokens sob demanda e otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda e otimizados para latência por minuto para o Meta Llama 3.1 405B Instruct	Cada região compatível: 40.000	Não	Número máximo de tokens sob demanda otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda e otimizados para latência por minuto para o Meta Llama 3.1 70B Instruct	Cada região compatível: 40.000	Não	Número máximo de tokens sob demanda otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações simultâneas InvokeModel assíncronas sob demanda para Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 30	Não	Número máximo de solicitações de inferência de modelo simultâneas assíncronas que você pode enviar para o Amazon Nova 2 Multimodal Embeddings V1. A cota considera a soma combinada de Converse, ConverseStream InvokeModel, e. InvokeModelWithResponseStream
Solicitações simultâneas InvokeModel assíncronas sob demanda para o Marengo Embed 3.0 TwelveLabs	Cada região com suporte: 10	Sim	O número máximo de solicitações de inferência de modelo simultâneo assíncrono que você pode enviar para TwelveLabs o Marengo Embed 3.0. A cota considera a soma combinada de Converse, ConverseStream InvokeModel, e. InvokeModelWithResponseStream
Solicitações InvokeModel simultâneas sob demanda para Amazon Nova 2 Sonic	Cada região compatível: 20	Não	O número máximo de solicitações de inferência de modelos simultâneos que você pode enviar para o Amazon Nova 2 Sonic. A cota considera a soma combinada de Converse, ConverseStream InvokeModel, e. InvokeModelWithResponseStream
Solicitações InvokeModel simultâneas sob demanda para o Amazon Nova Reel1.0	Cada região com suporte: 10	Não	Número máximo de solicitações de inferência de modelo simultâneas que você pode enviar para o Amazon Nova Reel 1.0. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações InvokeModel simultâneas sob demanda para o Amazon Nova Reel1.1	Cada região compatível: 3	Não	Número máximo de solicitações de inferência de modelo simultâneas que você pode enviar para o Amazon Nova Reel 1.1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações InvokeModel simultâneas sob demanda para o Amazon Nova Sonic	Cada região compatível: 20	Não	Número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Amazon Nova Sonic.
Solicitações InvokeModel simultâneas sob demanda para Twelve Labs Marengo	Cada região compatível: 30	Não	O número máximo de InvokeModel solicitações simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Marengo.
Solicitações InvokeModel simultâneas sob demanda para Twelve Labs Pegasus	Cada região compatível: 30	Sim	O número máximo de InvokeModel solicitações simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Pegasus.
Solicitações de inferência de modelo otimizadas para latência sob demanda por minuto para o Anthropic Claude 3.5 Haiku	Cada região compatível: 100	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3.5 Haiku, se a otimização da latência estiver configurada.
Tokens de inferência de modelo otimizados para latência sob demanda por minuto para o Anthropic Claude 3.5 Haiku	Cada região compatível: 500.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3.5 Haiku ConverseStream, se a otimização da latência estiver configurada.
Solicitações simultâneas de inferência de modelo sob demanda para o Luma Ray V2	Cada região compatível: 1	Não	Número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Luma Ray V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Large	Cada região compatível: 100	Não	O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada de solicitações para Converse e InvokeModel
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Mini	Cada região compatível: 100	Não	O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada de solicitações para Converse e InvokeModel
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba Instruct	Cada região compatível: 100	Não	O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba Instruct. A cota considera a soma combinada de solicitações para Converse e InvokeModel
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Mid	Cada região compatível: 400	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o AI21 Labs Jurassic-2 Mid
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Ultra	Cada região compatível: 100	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o AI21 Labs Jurassic-2 Ultra
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 2.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Multimodal Embeddings V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova Canvas	Cada região compatível: 100	Não	Número máximo de solicitações que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Canvas. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova Lite	us-east-1: 2.000 eu-west-2:2.000 Cada uma das outras regiões compatíveis: 200	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para a Amazon Nova Micro	us-east-1: 2.000 eu-west-2:2.000 Cada uma das outras regiões compatíveis: 200	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova Pro	Cada região compatível: 250	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Rerank 1.0	Cada região compatível: 200	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Rerank 1.0.
Solicitações de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1	Cada região compatível: 60	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Image Generator G1.
Solicitações de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1 V2	Cada região compatível: 60	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gerador de Imagens do Amazon Titan G1 V2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Multimodal Embeddings G1	Cada região compatível: 2.000	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1.
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings	Cada região compatível: 2.000	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para Amazon Titan Text Embeddings
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings V2	Cada região compatível: 6.000	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Text Embeddings V2
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Express	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Express
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Lite	Cada região compatível: 800	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Lite
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Premier	Cada região compatível: 100	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Premier
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Haiku	us-east-1: 1.000 us-west-2: 1.000 ap-northeast-1:200 ap-southeast-1:200 Cada uma das outras regiões suportadas: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Haiku.
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Opus	Cada região compatível: 50	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Sonnet	us-east-1: 500 us-west-2: 500 Cada uma das outras regiões compatíveis: 100	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet.
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Haiku	us-west-1:400 Cada uma das outras regiões compatíveis: 1.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet	us-east-1:50 us-east-2:50 us-west-2:250 ap-northeast-2:50 ap-south-1:50 ap-southeast-2:50 Cada uma das outras regiões compatíveis: 20	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet V2	us-west-2:250 Cada uma das outras regiões compatíveis: 50	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.7 Sonnet V1	Cada região compatível: 125	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude Instant	us-east-1: 1.000 us-west-2: 1.000 Cada uma das outras regiões suportadas: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude Instant
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude V2	us-east-1: 500 us-west-2: 500 Cada uma das outras regiões compatíveis: 100	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude V2
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command.
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command Light	Cada região compatível: 800	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command Light.
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command R	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command R 128k.
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command R Plus	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command R Plus 128k.
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Embed English	Cada região compatível: 2.000	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Embed English.
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Embed Multilingual	Cada região compatível: 2.000	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Embed Multilingual.
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Embed V4	Cada região com suporte: 1.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Rerank 3.5	Cada região compatível: 250	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Rerank 3.5.
Solicitações de inferência de modelos sob demanda por minuto para DeepSeek V3 V1	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para a V3 DeepSeek V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para a V3.2 DeepSeek	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para DeepSeek a V3.2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o GPT OSS Safeguard 120B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 120B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o GPT OSS Safeguard 20B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 20B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Gemma 3 12B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 12B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Gemma 3 27B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 27B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Gemma 3 4B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 4B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelos sob demanda por minuto para Kimi K2 Thinking	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Kimi K2 Thinking. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Magistral Small 1.2	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Magistral Small 1.2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 13B	Cada região compatível: 800	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 13B.
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 70B	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 70B.
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 13B	Cada região compatível: 800	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 Chat 13B.
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 70B	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 Chat 70B.
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3 70B Instruct	Cada região compatível: 400	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3 8B Instruct	Cada região compatível: 800	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 405B Instruct	Cada região compatível: 200	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 70B Instruct	Cada região compatível: 400	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 8B Instruct	Cada região compatível: 800	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 11B Instruct	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 1B Instruct	Cada região compatível: 800	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 3B Instruct	Cada região compatível: 800	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 90B Instruct	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.3 70B Instruct	Cada região compatível: 400	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Minimax M2	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax M2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Minimax M2.1	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax M2.1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Ministral 14B 3.0	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 14B 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Ministral 3B 3.0	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 3B 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Ministral 8B 3.0	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 8B 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Mistral 7B Instruct	Cada região compatível: 800	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para Mistral mistral-7 0 b-instruct-v
Solicitações de inferência de modelo sob demanda por minuto para o Mistral AI Mistral Small	Cada região compatível: 400	Não	O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto para Mistral AI Mistral Small
Solicitações de inferência de modelo sob demanda por minuto para Mistral Devstral 2 123b	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Devstral 2 123b. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Mistral Large	Cada região compatível: 400	Não	O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto para Mistral mistral-large-2402-v1
Solicitações de inferência de modelo sob demanda por minuto para o Mistral Large 2407	Cada região compatível: 400	Não	Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream
Solicitações de inferência de modelo sob demanda por minuto para Mistral Large 3	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Large 3. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Mistral Mixtral 8x7b Instruct	Cada região compatível: 400	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para Mistral mixtral-8x7b-v0
Solicitações de inferência de modelo sob demanda por minuto para Moonshot AI Kimi K2.5	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Moonshot AI Kimi K2.5. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para NVIDIA Nemotron Nano 2	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para NVIDIA Nemotron Nano 2 VL	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2 VL. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Nemotron Nano 3 30B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Nemotron Nano 3 30B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 120B	Cada região compatível: 10.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 20B	Cada região compatível: 10.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 235B a22b 2507 V1	Cada região compatível: 10.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 235B a22b 2507 V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 32B V1	Cada região compatível: 10.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 32B V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 Coder 30B a3b V1	Cada região compatível: 10.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 30B a3b V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 Coder 480B a35b V1	Cada região compatível: 10.000	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 480B a35b V1. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 Coder Next	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder Next. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Qwen3 Next 80B A3B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Next 80B A3B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Qwen3 VL 235B A22B	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 VL 235B A22B. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion 3 Large	Cada região compatível: 15	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Large.
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion 3 Medium	Cada região compatível: 60	Não	O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Medium
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion 3.5 Large	Cada região compatível: 15	Não	O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3.5 Large.
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion XL 0,8	Cada região compatível: 60	Não	O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion XL 0.8
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion XL 1.0	Cada região compatível: 60	Não	O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion XL 1.0
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Image Core	Cada região compatível: 90	Não	O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Image Core.
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Image Ultra	Cada região com suporte: 10	Não	O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Image Ultra.
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Conservative Upscale	Cada região compatível: 2	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Conservative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Control Sketch	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Sketch. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Control Structure	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Structure. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Creative Upscale	Cada região compatível: 2	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Erase Object	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Erase Object. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Fast Upscale	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Inpaint	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Inpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Outpaint	Cada região compatível: 2	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Outpaint. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Remove Background	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Remove Background. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Search e Recolor	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Search e o Recolor. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Search and Replace	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Replace. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Style Guide	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Guide. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Style Transfer	Cada região com suporte: 10	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Transfer. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Twelve Labs Marengo	Cada região compatível: 100	Não	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Marengo. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Twelve Labs Pegasus	Cada região compatível: 60	Sim	Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o TwelveLabs Marengo Embed 3.0	Cada região com suporte: 500	Sim	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o TwelveLabs Marengo Embed 3.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Voxtral Mini 1.0	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Mini 1.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para o Voxtral Small 1.0	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Small 1.0. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Z.ai GLM-4.7	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Z.ai GLM-4.7. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Solicitações de inferência de modelo sob demanda por minuto para Z.ai GLM-4.7 Flash	Cada região compatível: 10.000	Não	O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Z.ai GLM-4.7 Flash. Essa cota representa o número total de solicitações para as ações Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Large	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse e. InvokeModel
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Mini	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse e. InvokeModel
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba Instruct	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba Instruct. A cota considera a soma combinada de tokens para Converse e InvokeModel
Tokens de inferência de modelo sob demanda por minuto para AI21 Labs Jurassic-2 Mid	Cada região compatível: 300.000	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para AI21 Labs Jurassic-2 Mid.
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Ultra	Cada região compatível: 300.000	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para AI21 Labs Jurassic-2 Ultra.
Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Lite	us-east-1: 4,000,000 eu-west-2: 4.000.000 Cada uma das outras regiões suportadas: 200.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Micro	us-east-1: 4,000,000 eu-west-2: 4.000.000 Cada uma das outras regiões suportadas: 200.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Pro	Cada região com suporte: 1.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1	Cada região compatível: 2.000	Não	O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Image Generator G1.
Tokens de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1 V2	Cada região compatível: 2.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gerador de Imagens do Amazon Titan G1 V2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Multimodal Embeddings G1	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1.
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode fornecer InvokeModel em um minuto para Amazon Titan Text Embeddings.
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings V2	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Text Embeddings V2.
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Express	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Express. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Lite	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Lite. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Premier	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Premier. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Haiku	us-east-1: 2,000,000 us-west-2: 2,000,000 ap-northeast-1:200.000 ap-southeast-1 ap-southeast-1:200.000 Cada uma das outras regiões suportadas: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3 Haiku. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Opus	Cada região compatível: 400.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Sonnet	us-east-1: 1,000,000 us-west-2: 1,000,000 Cada uma das outras regiões suportadas: 200.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Haiku	us-west-1:300.000 Cada uma das outras regiões suportadas: 2.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet	us-east-1:400.000 us-east-2:400.000 us-west-2: 2,000,000 ap-northeast-2:400.000 ap-south-1:400.000 ap-southeast-2:400.000 Cada uma das outras regiões suportadas: 200.000	Não	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet V2	us-west-2: 2,000,000 Cada uma das outras regiões suportadas: 400.000	Não	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.7 Sonnet V1	Cada região compatível: 500.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude Instant	us-east-1: 1,000,000 us-west-2: 1,000,000 Cada uma das outras regiões suportadas: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic ConverseStream Claude InvokeModelWithResponseStream Instant.
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude V2	us-east-1: 500.000 us-west-2: 500.000 Cada uma das outras regiões suportadas: 200.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic ConverseStream Claude V2.
Tokens de inferência de modelo sob demanda por minuto para o Cohere Command	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para ConverseStream Cohere Command.
Tokens de inferência de modelo sob demanda por minuto para o Cohere Command Light	Cada região compatível: 300.000	Não	Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command Light.
Tokens de inferência de modelo sob demanda por minuto para o Cohere Command R	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o ConverseStream Cohere Command R 128k.
Tokens de inferência de modelo sob demanda por minuto para o Cohere Command R Plus	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o ConverseStream Cohere Command R Plus 128k.
Tokens de inferência de modelo sob demanda por minuto para o Cohere Embed English	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Cohere Embed English.
Tokens de inferência de modelo sob demanda por minuto para o Cohere Embed Multilingual	Cada região compatível: 300.000	Não	O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Cohere Embed Multilingual.
Tokens de inferência de modelo sob demanda por minuto para o Cohere Embed V4	Cada região compatível: 150.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para DeepSeek V3 V1	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para DeepSeek V3 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para a V3.2 DeepSeek	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para DeepSeek a V3.2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o GPT OSS Safeguard 120B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 120B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o GPT OSS Safeguard 20B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o GPT OSS Safeguard 20B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Gemma 3 12B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 12B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Gemma 3 27B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 27B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Gemma 3 4B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gemma 3 4B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Kimi K2 Thinking	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Kimi K2 Thinking. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Magistral Small 1.2	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Magistral Small 1.2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 13B	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 13B.
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 70B	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 70B. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 13B	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 13B. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 70B	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 70B. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3 70B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3 8B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 405B Instruct	Cada região compatível: 400.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 70B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 8B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 11B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 1B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 3B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 90B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.3 70B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Minimax M2	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax M2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Minimax M2.1	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Minimax M2.1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Ministral 14B 3.0	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 14B 3.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Ministral 3B 3.0	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 3B 3.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Ministral 8B 3.0	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Ministral 8B 3.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mistral 7B Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o Mistral AI Mistral InvokeModelWithResponseStream 7B Instruct. ConverseStream
Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mistral Large	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para Mistral ConverseStream AI Mistral Large.
Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mistral Small	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para Mistral ConverseStream AI Mistral Small.
Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mixtral 8X7BB Instruct	Cada região compatível: 300.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse e para o Mistral AI ConverseStream Mixtral InvokeModel InvokeModelWithResponseStream 8X7B Instruct.
Tokens de inferência de modelo sob demanda por minuto para Mistral Devstral 2 123b	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Devstral 2 123b. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Mistral Large 2407	Cada região compatível: 300.000	Não	Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream
Tokens de inferência de modelo sob demanda por minuto para Mistral Large 3	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Mistral Large 3. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Moonshot AI Kimi K2.5	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Moonshot AI Kimi K2.5. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para NVIDIA Nemotron Nano 2	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para NVIDIA Nemotron Nano 2 VL	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o NVIDIA Nemotron Nano 2 VL. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Nemotron Nano 3 30B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Nemotron Nano 3 30B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 120B	Cada região compatível: 100.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 20B	Cada região compatível: 100.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Qwen3 235B a22b 2507 V1	Cada região compatível: 100.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 235B a22b 2507 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Qwen3 32B V1	Cada região compatível: 100.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 32B V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Qwen3 Coder 30B a3b V1	Cada região compatível: 100.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 30B a3b V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Qwen3 Coder 480B a35b V1	Cada região compatível: 100.000.000	Não	Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 480B a35b V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Qwen3 Coder Next	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder Next. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Qwen3 Next 80B A3B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Next 80B A3B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Qwen3 VL 235B A22B	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 VL 235B A22B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Voxtral Mini 1.0	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Mini 1.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para o Voxtral Small 1.0	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Voxtral Small 1.0. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Z.ai GLM-4.7	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Z.ai GLM-4.7. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Tokens de inferência de modelo sob demanda por minuto para Z.ai GLM-4.7 Flash	Cada região compatível: 100.000.000	Não	O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Z.ai GLM-4.7 Flash. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream
Parâmetros por função	Cada região compatível: 5	Sim	Número máximo de parâmetros que você pode ter em uma função de grupo de ações.
PrepareAgent solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de PrepareAgent API por segundo.
Registros por trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1.
Registros por trabalho de inferência em lote para o Amazon Nova Premier	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier.
Registros por trabalho de inferência em lote para o Claude 3 Haiku	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Haiku.
Registros por trabalho de inferência em lote para o Claude 3 Opus	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Opus.
Registros por trabalho de inferência em lote para o Claude 3 Sonnet	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet.
Registros por trabalho de inferência em lote para o Claude 3.5 Haiku	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku.
Registros por trabalho de inferência em lote para o Claude 3.5 Sonnet	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet.
Registros por trabalho de inferência em lote para o Claude 3.5 Sonnet v2	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2.
Registros por trabalho de inferência em lote para o Claude 3.7 Sonnet	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet.
Registros por trabalho de inferência em lote para Claude Haiku 4.5	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Haiku 4.5.
Registros por trabalho de inferência em lote para Claude Opus 4.5	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.5.
Registros por trabalho de inferência em lote para Claude Opus 4.6	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude Opus 4.6.
Registros por trabalho de inferência em lote para o Claude Sonnet 4	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.
Registros por tarefa de inferência em lote para Claude Sonnet 4.5	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.5.
Trabalho de inferência de registros por lote para Claude Sonnet 4.6	Cada região compatível: 100.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.6.
Registros por tarefa de inferência em lote para DeepSeek a V3.2	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para a DeepSeek V3.2.
Registros por tarefa de inferência em lote para v3 DeepSeek	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para a DeepSeek v3.
Registros por tarefa de inferência em lote para Devstral 2 123B	Cada região compatível: 100.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Devstral 2 123B.
Registros por tarefa de inferência em lote para o GLM 4.7	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7.
Registros por tarefa de inferência em lote para o GLM 4.7 Flash	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o GLM 4.7 Flash.
Registros por tarefa de inferência em lote para Gemma 3 12B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 12B.
Registros por trabalho de inferência em lote para Gemma 3 27B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 27B.
Registros por trabalho de inferência em lote para Gemma 3 4B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Gemma 3 4B.
Trabalho de inferência de registros por lote para Kimi K2 Thinking	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Kimi K2 Thinking.
Registros por trabalho de inferência em lote para Kimi K2.5	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Kimi K2.5.
Registros por trabalho de inferência em lote para o Llama 3.1 405B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct.
Registros por trabalho de inferência em lote para Llama 3.1 70B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct.
Registros por trabalho de inferência em lote para o Llama 3.1 8B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct.
Registros por trabalho de inferência em lote para a Llama 3.2 11B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct.
Registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote Llama 3.2 1B Instruct.
Registros por trabalho de inferência em lote para a Llama 3.2 3B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct.
Registros por trabalho de inferência em lote para o Llama 3.2 90B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct.
Registros por trabalho de inferência em lote para Llama 3.3 70B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct.
Registros por trabalho de inferência em lote para o Llama 4 Maverick	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick.
Registros por trabalho de inferência em lote para o Llama 4 Scout	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout.
Registros por tarefa de inferência de lote para Magistral Small 2509	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Magistral Small 2509.
Registros por tarefa de inferência em lote para MiniMax M2	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.
Registros por tarefa de inferência em lote para MiniMax M2.1	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para MiniMax M2.1.
Registros por tarefa de inferência em lote para Ministral 3 14B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Ministral 3 14B.
Registros por tarefa de inferência em lote para Ministral 3 8B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3 8B.
Registros por tarefa de inferência em lote para o Ministral 3B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Ministral 3B.
Registros por trabalho de inferência em lote para o Mistral Large 2 (24.07)	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07).
Registros por trabalho de inferência em lote para Mistral Large 3	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Mistral Large 3.
Registros por trabalho de inferência em lote para o Mistral Small	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small.
Registros por tarefa de inferência em lote para NVIDIA Nemotron Nano 12B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 12B.
Registros por trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B.
Registros por trabalho de inferência em lote para NVIDIA Nemotron Nano 9B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B.
Registros por trabalho de inferência em lote para Nova 2 Lite	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova 2 Lite.
Registros por trabalho de inferência em lote para o Nova Lite V1	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1.
Registros por trabalho de inferência em lote para a Nova Micro V1	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1.
Registros por trabalho de inferência em lote para o Nova Pro V1	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1.
Registros por trabalho de inferência em lote para o OpenAI GPT OSS 120b	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b.
Registros por trabalho de inferência em lote para o OpenAI GPT OSS 20b	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b.
Registros por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 120b	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b.
Registros por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 20b	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b.
Registros por trabalho de inferência em lote para o Qwen3 235B	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 235B.
Registros por trabalho de inferência em lote para o Qwen3 32B	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 32B.
Registros por trabalho de inferência em lote para o Qwen3 Coder 30B	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B.
Registros por trabalho de inferência em lote para o Qwen3 Coder 480B	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B.
Registros por trabalho de inferência em lote para o Qwen3 Coder Next	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder Next.
Registros por trabalho de inferência em lote para o Qwen3 Next 80B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Next 80B.
Registros por trabalho de inferência em lote para Qwen3 VL 235B	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 VL 235B.
Registros por trabalho de inferência em lote para o Titan Multimodal Embeddings G1	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1.
Registros por trabalho de inferência em lote para o Titan Text Embeddings V2	Cada região compatível: 50.000	Sim	Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2.
Registros por trabalho de inferência em lote para o Voxtral Mini 3B 2507	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Mini 3B 2507.
Registros por tarefa de inferência em lote para o Voxtral Small 24B 2507	Cada região compatível: 50.000	Sim	O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Voxtral Small 24B 2507.
Registros por arquivo de entrada por trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Amazon Nova 2 Multimodal Embeddings V1.
Registros por arquivo de entrada por trabalho de inferência em lote para o Amazon Nova Premier	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Amazon Nova Premier.
Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Haiku	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Haiku.
Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Opus	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Opus.
Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Sonnet	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet.
Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Haiku	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku.
Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Sonnet	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet.
Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Sonnet v2	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2.
Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.7 Sonnet	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet.
Registros por arquivo de entrada por trabalho de inferência em lote para Claude Haiku 4.5	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude Haiku 4.5.
Registros por arquivo de entrada por trabalho de inferência em lote para Claude Opus 4.5	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude Opus 4.5.
Registros por arquivo de entrada por trabalho de inferência em lote para Claude Opus 4.6	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude Opus 4.6.
Registros por arquivo de entrada por trabalho de inferência em lote para Claude Sonnet 4	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.
Registros por arquivo de entrada por trabalho de inferência em lote para Claude Sonnet 4.5	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.5.
Registros por arquivo de entrada por tarefa de inferência em lote para Claude Sonnet 4.6	Cada região compatível: 100.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude Sonnet 4.6.
Registros por arquivo de entrada por trabalho de inferência em lote para DeepSeek a V3.2	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para a DeepSeek V3.2.
Registros por arquivo de entrada por trabalho de inferência em lote para v3 DeepSeek	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para a DeepSeek v3.
Registros por arquivo de entrada por trabalho de inferência em lote para Devstral 2 123B	Cada região compatível: 100.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Devstral 2 123B.
Registros por arquivo de entrada por trabalho de inferência em lote para o GLM 4.7	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o GLM 4.7.
Registros por arquivo de entrada por tarefa de inferência em lote para o GLM 4.7 Flash	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o GLM 4.7 Flash.
Registros por arquivo de entrada por trabalho de inferência em lote para Gemma 3 12B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Gemma 3 12B.
Registros por arquivo de entrada por trabalho de inferência em lote para Gemma 3 27B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Gemma 3 27B.
Registros por arquivo de entrada por trabalho de inferência em lote para Gemma 3 4B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Gemma 3 4B.
Registros por arquivo de entrada por trabalho de inferência em lote para Kimi K2 Thinking	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Kimi K2 Thinking.
Registros por arquivo de entrada por trabalho de inferência em lote para Kimi K2.5	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Kimi K2.5.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 405B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 70B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 8B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 11B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 1B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 1B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 3B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 90B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.3 70B Instruct	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 4 Maverick	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Maverick.
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 4 Scout	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Scout.
Registros por arquivo de entrada por tarefa de inferência em lote para Magistral Small 2509	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Magistral Small 2509.
Registros por arquivo de entrada por trabalho de inferência em lote para MiniMax M2	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para MiniMax M2.
Registros por arquivo de entrada por trabalho de inferência em lote para MiniMax M2.1	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para MiniMax M2.1.
Registros por arquivo de entrada por tarefa de inferência em lote para Ministral 3 14B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Ministral 3 14B.
Registros por arquivo de entrada por tarefa de inferência em lote para Ministral 3 8B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Ministral 3 8B.
Registros por arquivo de entrada por trabalho de inferência em lote para o Ministral 3B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Ministral 3B.
Registros por arquivo de entrada por trabalho de inferência em lote para o Mistral Large 2 (24.07)	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07).
Registros por arquivo de entrada por trabalho de inferência em lote para Mistral Large 3	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Mistral Large 3.
Registros por arquivo de entrada por trabalho de inferência em lote para o Mistral Small	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Mistral Small.
Registros por arquivo de entrada por tarefa de inferência em lote para NVIDIA Nemotron Nano 12B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para NVIDIA Nemotron Nano 12B.
Registros por arquivo de entrada por tarefa de inferência em lote para NVIDIA Nemotron Nano 3 30B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para NVIDIA Nemotron Nano 3 30B.
Registros por arquivo de entrada por tarefa de inferência em lote para NVIDIA Nemotron Nano 9B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o NVIDIA Nemotron Nano 9B.
Registros por arquivo de entrada por trabalho de inferência em lote para Nova 2 Lite	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova 2 Lite.
Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Lite V1	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Lite V1.
Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Micro V1	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Micro V1.
Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Pro V1	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Pro V1.
Registros por arquivo de entrada por trabalho de inferência em lote para o OpenAI GPT OSS 120b	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b.
Registros por arquivo de entrada por trabalho de inferência em lote para o OpenAI GPT OSS 20b	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b.
Registros por arquivo de entrada por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 120b	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 120b.
Registros por arquivo de entrada por trabalho de inferência em lote para OpenAI GPT OSS Safeguard 20b	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS Safeguard 20b.
Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 235B	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 235B.
Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 32B	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 32B.
Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder 30B	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B.
Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder 480B	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B.
Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder Next	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder Next.
Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Next 80B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Next 80B.
Registros por arquivo de entrada por trabalho de inferência em lote para Qwen3 VL 235B	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 VL 235B.
Registros por arquivo de entrada por trabalho de inferência em lote para o Titan Multimodal Embeddings G1	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1.
Registros por arquivo de entrada por trabalho de inferência em lote para o Titan Text Embeddings V2	Cada região compatível: 50.000	Sim	Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2.
Registros por arquivo de entrada por tarefa de inferência em lote para o Voxtral Mini 3B 2507	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Voxtral Mini 3B 2507.
Registros por arquivo de entrada por tarefa de inferência em lote para o Voxtral Small 24B 2507	Cada região compatível: 50.000	Sim	O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Voxtral Small 24B 2507.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Amazon Nova 2 Multimodal Embeddings V1	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Amazon Nova 2 Multimodal Embeddings V1.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Amazon Nova Premier	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Amazon Nova Premier.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Haiku	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Haiku.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Opus	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Opus.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Sonnet	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Sonnet.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Haiku	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Haiku.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet v2	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet v2.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.7 Sonnet	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.7 Sonnet.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Haiku 4.5	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Haiku 4.5.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Opus 4.5	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Opus 4.5.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Opus 4.6	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude Opus 4.6.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude Sonnet 4	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude Sonnet 4.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.5.	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.5.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.6	Cada região compatível: 100	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude Sonnet 4.6.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para a V3.2 DeepSeek	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para DeepSeek a V3.2.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para a v3 DeepSeek	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para DeepSeek a v3.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Devstral 2 123B	Cada região compatível: 100	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Devstral 2 123B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7 Flash	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o GLM 4.7 Flash.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 12B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 12B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 27B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 27B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 4B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Gemma 3 4B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Kimi K2 Thinking	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Kimi K2 Thinking.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Kimi K2.5	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Kimi K2.5.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 405B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 405B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 70B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 70B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 8B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 8B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 11B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 11B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 1B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 1B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 3B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 3B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 90B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 90B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.3 70B Instruct	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.3 70B Instruct.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Maverick	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Maverick.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Scout	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Scout.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Magistral Small 2509	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Magistral Small 2509.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para M2 MiniMax	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para MiniMax M2.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para M2.1 MiniMax	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para MiniMax M2.1.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 14B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 14B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 8B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3 8B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Ministral 3B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Large 2 (24.07)	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Large 2 (24.07).
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Mistral Large 3	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Mistral Large 3.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Small	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Small.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 12B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 12B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para NVIDIA Nemotron Nano 3 30B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 3 30B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 9B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o NVIDIA Nemotron Nano 9B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Nova 2 Lite	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para o Nova 2 Lite.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Lite V1	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Lite V1.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Micro V1	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Micro V1.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Pro V1	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Pro V1.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 120b	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 120b.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 20b	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 20b.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 120b	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 120b.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 20b	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o OpenAI GPT OSS Safeguard 20b.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 235B	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 235B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 32B	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 32B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 30B	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 30B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 480B	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 480B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Coder Next	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Coder Next.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Next 80B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 Next 80B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 VL 235B	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Qwen3 VL 235B.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Multimodal Embeddings G1	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Multimodal Embeddings G1.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Text Embeddings V2	Cada região compatível: 20	Sim	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Text Embeddings V2.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Mini 3B 2507	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Mini 3B 2507.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Small 24B 2507	Cada região compatível: 20	Sim	O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Voxtral Small 24B 2507.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1	Cada região compatível: 3	Não	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1.
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Text Embeddings V2	Cada região compatível: 3	Não	Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Text Embeddings V2
Limite de taxa de aceleração para o Bedrock Data Automation Runtime: ListTagsForResource	Cada região compatível: 25 por segundo	Não	O número máximo de Bedrock Data Automation Runtime: ListTagsForResource solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para o Bedrock Data Automation Runtime: TagResource	Cada região compatível: 25 por segundo	Não	O número máximo de Bedrock Data Automation Runtime: TagResource solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para o Bedrock Data Automation Runtime: UntagResource	Cada região compatível: 25 por segundo	Não	O número máximo de Bedrock Data Automation Runtime: UntagResource solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para Bedrock Data Automation: ListTagsForResource	Cada região compatível: 25 por segundo	Não	O número máximo de Bedrock Data Automation: ListTagsForResource solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para Bedrock Data Automation: TagResource	Cada região compatível: 25 por segundo	Não	O número máximo de Bedrock Data Automation: TagResource solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para Bedrock Data Automation: UntagResource	Cada região compatível: 25 por segundo	Não	O número máximo de Bedrock Data Automation: UntagResource solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para CreateBlueprint	Cada região compatível: 5 por segundo	Não	O número máximo de CreateBlueprint solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para CreateBlueprintVersion	Cada região compatível: 5 por segundo	Não	O número máximo de CreateBlueprintVersion solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para CreateDataAutomationProject	Cada região compatível: 5 por segundo	Não	O número máximo de CreateDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para DeleteBlueprint	Cada região compatível: 5 por segundo	Não	O número máximo de DeleteBlueprint solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para DeleteDataAutomationProject	Cada região compatível: 5 por segundo	Não	O número máximo de DeleteDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para GetBlueprint	Cada região compatível: 5 por segundo	Não	O número máximo de GetBlueprint solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para GetDataAutomationProject	Cada região compatível: 5 por segundo	Não	O número máximo de GetDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para GetDataAutomationStatus	Cada região compatível: 10 por segundo	Não	O número máximo de GetDataAutomationStatus solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para InvokeDataAutomationAsync	Cada região compatível: 10 por segundo	Não	O número máximo de InvokeDataAutomationAsync solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para ListBlueprints	Cada região compatível: 5 por segundo	Não	O número máximo de ListBlueprints solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para ListDataAutomationProjects	Cada região compatível: 5 por segundo	Não	O número máximo de ListDataAutomationProjects solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para UpdateBlueprint	Cada região compatível: 5 por segundo	Não	O número máximo de UpdateBlueprint solicitações que você pode fazer por segundo por conta, na região atual
Limite de taxa de aceleração para UpdateDataAutomationProject	Cada região compatível: 5 por segundo	Não	O número máximo de UpdateDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual
UpdateAgent solicitações por segundo	Cada região compatível: 4	Não	O número máximo de solicitações de UpdateAgent API por segundo.
UpdateAgentActionGroup solicitações por segundo	Cada região compatível: 6	Não	O número máximo de solicitações de UpdateAgentActionGroup API por segundo.
UpdateAgentAlias solicitações por segundo	Cada região compatível: 2	Não	O número máximo de solicitações de UpdateAgentAlias API por segundo.
UpdateAgentKnowledgeBase solicitações por segundo	Cada região compatível: 4	Não	O número máximo de solicitações de UpdateAgentKnowledgeBase API por segundo.

nota

É possível solicitar um aumento de cotas para sua conta seguindo as etapas abaixo:

Se uma cota estiver marcada como Sim, você poderá ajustá-la seguindo as etapas em Solicitar um aumento de cota, no Guia do usuário do Service Quotas.
Se uma cota estiver marcada como Não, você poderá enviar uma solicitação por meio do formulário de aumento de limite para um consideração de aumento.
Para qualquer modelo, você pode solicitar um aumento para as seguintes cotas juntas:
- InvokeModel Tokens entre regiões por minuto para ${model}
- InvokeModel Solicitações entre regiões por minuto para ${model}
- InvokeModel Tokens sob demanda por minuto para ${model}
- InvokeModel Solicitações sob demanda por minuto para ${model}
Para solicitar um aumento para qualquer combinação dessas cotas, solicite um aumento para os InvokeModel tokens entre regiões por minuto para a ${model} cota seguindo as etapas em Solicitando um aumento de cota no Guia do usuário de cotas de serviço. Depois de fazer isso, a equipe de suporte entrará em contato e oferecerá a opção de aumentar também as outras três cotas. Devido à extraordinária demanda, a prioridade será dada aos clientes que geram tráfego que consome sua alocação de cota existente. Sua solicitação poderá ser negada se você não atender a essa condição.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

AWS Batch

Amazon Bedrock AgentCore