Endpoints e cotas de Amazon Bedrock
Para se conectar programaticamente a um serviço da AWS, você usa um endpoint. Os serviços da AWS oferecem os seguintes tipos de endpoints em algumas ou todas as regiões da AWS aceitas pelo serviço: Endpoints IPv4, endpoints dual-stack e endpoints FIPS. Alguns serviços fornecem endpoints globais. Para obter mais informações, consulte AWSEndpoints de serviço da .
As service quotas, também chamadas de limites, correspondem ao número máximo de recursos ou operações de serviço para sua conta da AWS. Para obter mais informações, consulte AWSService Quotes .
A seguir estão os endpoints de serviço e as cotas de serviço para este serviço.
Endpoints de serviço do Amazon Bedrock
APIs do ambiente de gerenciamento do Amazon Bedrock
A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para gerenciamento, treinamento e implantação de modelos. Use esses endpoints para operações de API do Amazon Bedrock.
| Nome da Região | Região | Endpoint | Protocolo |
|---|---|---|---|
| Leste dos EUA (Ohio) | us-east-2 |
bedrock.us-east-2.amazonaws.com bedrock-fips.us-east-2.amazonaws.com |
HTTPS HTTPS |
| Leste dos EUA (Norte da Virgínia) | us-east-1 |
bedrock.us-east-1.amazonaws.com bedrock-fips.us-east-1.amazonaws.com |
HTTPS HTTPS |
| Oeste dos EUA (Norte da Califórnia) | us-west-1 |
bedrock.us-west-1.amazonaws.com bedrock-fips.us-west-1.amazonaws.com |
HTTPS HTTPS |
| Oeste dos EUA (Oregon) | us-west-2 |
bedrock.us-west-2.amazonaws.com bedrock-fips.us-west-2.amazonaws.com |
HTTPS HTTPS |
| Ásia-Pacífico (Hyderabad) | ap-south-2 | bedrock.ap-south-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Jacarta) | ap-southeast-3 | bedrock.ap-southeast-3.amazonaws.com | HTTPS |
| Ásia-Pacífico (Malásia) | ap-southeast-5 | bedrock.ap-southeast-5.amazonaws.com | HTTPS |
| Ásia-Pacífico (Melbourne) | ap-southeast-4 | bedrock.ap-southeast-4.amazonaws.com | HTTPS |
| Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock.ap-south-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Osaka) | ap-northeast-3 | bedrock.ap-northeast-3.amazonaws.com | HTTPS |
| Ásia-Pacífico (Seul) | ap-northeast-2 | bedrock.ap-northeast-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock.ap-southeast-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock.ap-southeast-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Taipei) | ap-east-2 | bedrock.ap-east-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Tailândia) | ap-southeast-7 | bedrock.ap-southeast-7.amazonaws.com | HTTPS |
| Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock.ap-northeast-1.amazonaws.com | HTTPS |
| Canadá (Central) | ca-central-1 |
bedrock.ca-central-1.amazonaws.com bedrock-fips.ca-central-1.amazonaws.com |
HTTPS HTTPS |
| Europa (Frankfurt) | eu-central-1 | bedrock.eu-central-1.amazonaws.com | HTTPS |
| Europa (Irlanda) | eu-west-1 | bedrock.eu-west-1.amazonaws.com | HTTPS |
| Europa (Londres) | eu-west-2 | bedrock.eu-west-2.amazonaws.com | HTTPS |
| Europa (Milão) | eu-south-1 | bedrock.eu-south-1.amazonaws.com | HTTPS |
| Europa (Paris) | eu-west-3 | bedrock.eu-west-3.amazonaws.com | HTTPS |
| Europa (Espanha) | eu-south-2 | bedrock.eu-south-2.amazonaws.com | HTTPS |
| Europa (Estocolmo) | eu-north-1 | bedrock.eu-north-1.amazonaws.com | HTTPS |
| Europa (Zurique) | eu-central-2 | bedrock.eu-central-2.amazonaws.com | HTTPS |
| Israel (Tel Aviv) | il-central-1 | bedrock.il-central-1.amazonaws.com | HTTPS |
| Oriente Médio (Emirados Árabes Unidos) | me-central-1 | bedrock.me-central-1.amazonaws.com | HTTPS |
| América do Sul (São Paulo) | sa-east-1 | bedrock.sa-east-1.amazonaws.com | HTTPS |
| AWS GovCloud (Leste dos EUA) | us-gov-east-1 |
bedrock.us-gov-east-1.amazonaws.com bedrock-fips.us-gov-east-1.amazonaws.com |
HTTPS HTTPS |
| AWS GovCloud (Oeste dos EUA) | us-gov-west-1 |
bedrock.us-gov-west-1.amazonaws.com bedrock-fips.us-gov-west-1.amazonaws.com |
HTTPS HTTPS |
APIs de runtime do Amazon Bedrock
A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para fazer solicitações de inferência para modelos hospedados no Amazon Bedrock. Use esses endpoints para operações de APIs runtime do Amazon Bedrock.
| Nome da Região | Região | Endpoint | Protocolo |
|---|---|---|---|
| Leste dos EUA (Ohio) | us-east-2 |
bedrock-runtime.us-east-2.amazonaws.com bedrock-runtime-fips.us-east-2.amazonaws.com |
HTTPS HTTPS |
| Leste dos EUA (Norte da Virgínia) | us-east-1 |
bedrock-runtime.us-east-1.amazonaws.com bedrock-runtime-fips.us-east-1.amazonaws.com |
HTTPS HTTPS |
| Oeste dos EUA (Oregon) | us-west-2 |
bedrock-runtime.us-west-2.amazonaws.com bedrock-runtime-fips.us-west-2.amazonaws.com |
HTTPS HTTPS |
| Ásia-Pacífico (Hyderabad) | ap-south-2 | bedrock-runtime.ap-south-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock-runtime.ap-south-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Osaka) | ap-northeast-3 | bedrock-runtime.ap-northeast-3.amazonaws.com | HTTPS |
| Ásia-Pacífico (Seul) | ap-northeast-2 | bedrock-runtime.ap-northeast-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock-runtime.ap-southeast-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock-runtime.ap-southeast-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock-runtime.ap-northeast-1.amazonaws.com | HTTPS |
| Canadá (Central) | ca-central-1 |
bedrock-runtime.ca-central-1.amazonaws.com bedrock-runtime-fips.ca-central-1.amazonaws.com |
HTTPS HTTPS |
| Europa (Frankfurt) | eu-central-1 | bedrock-runtime.eu-central-1.amazonaws.com | HTTPS |
| Europa (Irlanda) | eu-west-1 | bedrock-runtime.eu-west-1.amazonaws.com | HTTPS |
| Europa (Londres) | eu-west-2 | bedrock-runtime.eu-west-2.amazonaws.com | HTTPS |
| Europa (Milão) | eu-south-1 | bedrock-runtime.eu-south-1.amazonaws.com | HTTPS |
| Europa (Paris) | eu-west-3 | bedrock-runtime.eu-west-3.amazonaws.com | HTTPS |
| Europa (Espanha) | eu-south-2 | bedrock-runtime.eu-south-2.amazonaws.com | HTTPS |
| Europa (Estocolmo) | eu-north-1 | bedrock-runtime.eu-north-1.amazonaws.com | HTTPS |
| Europa (Zurique) | eu-central-2 | bedrock-runtime.eu-central-2.amazonaws.com | HTTPS |
| América do Sul (São Paulo) | sa-east-1 | bedrock-runtime.sa-east-1.amazonaws.com | HTTPS |
| AWS GovCloud (Leste dos EUA) | us-gov-east-1 |
bedrock-runtime.us-gov-east-1.amazonaws.com bedrock-runtime-fips.us-gov-east-1.amazonaws.com |
HTTPS HTTPS |
| AWS GovCloud (Oeste dos EUA) | us-gov-west-1 |
bedrock-runtime.us-gov-west-1.amazonaws.com bedrock-runtime-fips.us-gov-west-1.amazonaws.com |
HTTPS HTTPS |
APIs de tempo de compilação da funcionalidade Agentes do Amazon Bedrock
A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para criar e gerenciar agentes e bases de conhecimento. Use esses endpoints para operações de API do Agentes para Amazon Bedrock.
| Nome da Região | Região | Endpoint | Protocolo |
|---|---|---|---|
| Leste dos EUA (Norte da Virgínia) | us-east-1 | bedrock-agent.us-east-1.amazonaws.com | HTTPS |
| bedrock-agent-fips.us-east-1.amazonaws.com | HTTPS | ||
| Oeste dos EUA (Oregon) | us-west-2 | bedrock-agent.us-west-2.amazonaws.com | HTTPS |
| bedrock-agent-fips.us-west-2.amazonaws.com | HTTPS | ||
| Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock-agent.ap-southeast-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock-agent.ap-southeast-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock-agent.ap-northeast-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Seul) | ap-northeast-2 | bedrock-agent.ap-northeast-2.amazonaws.com | HTTPS |
| Canadá (Central) | ca-central-1 | bedrock-agent.ca-central-1.amazonaws.com | HTTPS |
| Europa (Frankfurt) | eu-central-1 | bedrock-agent.eu-central-1.amazonaws.com | HTTPS |
| Europa (Irlanda) | eu-west-1 | bedrock-agent.eu-west-1.amazonaws.com | HTTPS |
| Europa (Londres) | eu-west-2 | bedrock-agent.eu-west-2.amazonaws.com | HTTPS |
| Europa (Paris) | eu-west-3 | bedrock-agent.eu-west-3.amazonaws.com | HTTPS |
| Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock-agent.ap-south-1.amazonaws.com | HTTPS |
| América do Sul (São Paulo) | sa-east-1 | bedrock-agent.sa-east-1.amazonaws.com | HTTPS |
APIs de runtime do Agentes para Amazon Bedrock
A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pelo Amazon Bedrock para invocar agentes e consultar bases de conhecimento. Use esses endpoints para operações de APIs de runtime do Agentes para Amazon Bedrock.
| Nome da Região | Região | Endpoint | Protocolo |
|---|---|---|---|
| Leste dos EUA (Norte da Virgínia) | us-east-1 | bedrock-agent-runtime.us-east-1.amazonaws.com | HTTPS |
| bedrock-agent-runtime-fips.us-east-1.amazonaws.com | HTTPS | ||
| Oeste dos EUA (Oregon) | us-west-2 | bedrock-agent-runtime.us-west-2.amazonaws.com | HTTPS |
| bedrock-agent-runtime-fips.us-west-2.amazonaws.com | HTTPS | ||
| Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock-agent-runtime.ap-southeast-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock-agent-runtime.ap-southeast-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock-agent-runtime.ap-northeast-1.amazonaws.com | HTTPS |
| Ásia-Pacífico (Seul) | ap-northeast-2 | bedrock-agent-runtime.ap-northeast-2.amazonaws.com | HTTPS |
| Canadá (Central) | ca-central-1 | bedrock-agent-runtime.ca-central-1.amazonaws.com | HTTPS |
| Europa (Frankfurt) | eu-central-1 | bedrock-agent-runtime.eu-central-1.amazonaws.com | HTTPS |
| Europa (Paris) | eu-west-3 | bedrock-agent-runtime.eu-west-3.amazonaws.com | HTTPS |
| Europa (Irlanda) | eu-west-1 | bedrock-agent-runtime.eu-west-1.amazonaws.com | HTTPS |
| Europa (Londres) | eu-west-2 | bedrock-agent-runtime.eu-west-2.amazonaws.com | HTTPS |
| Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock-agent-runtime.ap-south-1.amazonaws.com | HTTPS |
| América do Sul (São Paulo) | sa-east-1 | bedrock-agent-runtime.sa-east-1.amazonaws.com | HTTPS |
APIs de automação de dados do Amazon Bedrock
A tabela a seguir fornece uma lista de endpoints específicos de região com suporte pela automação de dados para Amazon Bedrock. Os endpoints que usam a palavra runtime invocam esquemas e projetos para extrair informações de arquivos. Use esses endpoints para operações de APIs de runtime de automação de dados do Amazon Bedrock. Pde extremidade sem runtime são usados para criar esquemas e projetos para fornecer orientação de extração. Use esses endpoints para operações de buildtime da API de automação de dados do Amazon Bedrock
| Nome da Região | Região | Endpoint | Protocolo |
|---|---|---|---|
| Leste dos EUA (Norte da Virgínia) | us-east-1 |
bedrock-data-automation.us-east-1.amazonaws.com bedrock-data-automation-runtime.us-east-1.api.aws bedrock-data-automation-runtime.us-east-1.amazonaws.com bedrock-data-automation.us-east-1.api.aws bedrock-data-automation-fips.us-east-1.amazonaws.com bedrock-data-automation-runtime-fips.us-east-1.api.aws bedrock-data-automation-runtime-fips.us-east-1.amazonaws.com bedrock-data-automation-fips.us-east-1.api.aws |
HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS |
| Oeste dos EUA (Oregon) | us-west-2 |
bedrock-data-automation.us-west-2.amazonaws.com bedrock-data-automation-runtime.us-west-2.api.aws bedrock-data-automation-runtime.us-west-2.amazonaws.com bedrock-data-automation.us-west-2.api.aws bedrock-data-automation-fips.us-west-2.amazonaws.com bedrock-data-automation-runtime-fips.us-west-2.api.aws bedrock-data-automation-runtime-fips.us-west-2.amazonaws.com bedrock-data-automation-fips.us-west-2.api.aws |
HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS |
| Ásia-Pacífico (Mumbai) | ap-south-1 |
bedrock-data-automation.ap-south-1.amazonaws.com bedrock-data-automation-runtime.ap-south-1.amazonaws.com |
HTTPS HTTPS |
| Ásia-Pacífico (Sydney) | ap-southeast-2 |
bedrock-data-automation.ap-southeast-2.amazonaws.com bedrock-data-automation-runtime.ap-southeast-2.amazonaws.com |
HTTPS HTTPS |
| Europa (Frankfurt) | eu-central-1 |
bedrock-data-automation.eu-central-1.amazonaws.com bedrock-data-automation-runtime.eu-central-1.amazonaws.com |
HTTPS HTTPS |
| Europa (Irlanda) | eu-west-1 |
bedrock-data-automation.eu-west-1.amazonaws.com bedrock-data-automation-runtime.eu-west-1.amazonaws.com |
HTTPS HTTPS |
| Europa (Londres) | eu-west-2 |
bedrock-data-automation.eu-west-2.amazonaws.com bedrock-data-automation-runtime.eu-west-2.amazonaws.com |
HTTPS HTTPS |
| AWS GovCloud (Oeste dos EUA) | us-gov-west-1 |
bedrock-data-automation.us-gov-west-1.amazonaws.com bedrock-data-automation-runtime.us-gov-west-1.amazonaws.com bedrock-data-automation-fips.us-gov-west-1.amazonaws.com bedrock-data-automation-runtime-fips.us-gov-west-1.amazonaws.com |
HTTPS HTTPS HTTPS HTTPS |
Amazon Bedrock Service Quotas
dica
Como o Amazon Bedrock tem um grande número de cotas, recomendamos que você visualize as Service Quotas usando o console em vez de usar a tabela abaixo. Abra as cotas do Amazon Bedrock
| Name | Padrão | Ajustável | Descrição |
|---|---|---|---|
| (Otimização avançada de prompts) Trabalhos ativos por conta | Cada região compatível: 20 | Não | Número máximo de trabalhos ativos de Otimização avançada de prompts (APO) por conta. |
| (Otimização avançada de prompts) Trabalhos inativos por conta | Cada região com suporte: 5.000 | Não | Número máximo de trabalhos inativos de Otimização avançada de prompts (APO) por conta. |
| (Raciocínio automatizado) Anotações na política | Cada região com suporte: 10 | Não | Número máximo de anotações em uma política de raciocínio automatizado. |
| (Raciocínio automatizado) Solicitações de CancelAutomatedReasoningPolicyBuildWorkflow por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API CancelAutomatedReasoningPolicyBuildWorkflow por segundo. |
| (Raciocínio automatizado) Compilações simultâneas por política | Cada região compatível: 2 | Não | Número máximo de compilações simultâneas por política de raciocínio automatizado. |
| (Raciocínio automatizado) Criação de políticas simultâneas por conta | Cada região compatível: 5 | Não | Número máximo de compilações simultâneas de políticas de raciocínio automatizado em uma conta. |
| (Raciocínio automatizado) Solicitações de CreateAutomatedReasoningPolicy por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API CreateAutomatedReasoningPolicy por segundo. |
| (Raciocínio automatizado) Solicitações de CreateAutomatedReasoningPolicyTestCase por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API CreateAutomatedReasoningPolicyTestCase por segundo. |
| (Raciocínio automatizado) Solicitações de CreateAutomatedReasoningPolicyVersion por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API CreateAutomatedReasoningPolicyVersion por segundo. |
| (Raciocínio automatizado) Solicitações de DeleteAutomatedReasoningPolicy por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API DeleteAutomatedReasoningPolicy por segundo. |
| (Raciocínio automatizado) Solicitações de DeleteAutomatedReasoningPolicyBuildWorkflow por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API DeleteAutomatedReasoningPolicyBuildWorkflow por segundo. |
| (Raciocínio automatizado) Solicitações de DeleteAutomatedReasoningPolicyTestCase por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API DeleteAutomatedReasoningPolicyTestCase por segundo. |
| (Raciocínio automatizado) Solicitações de ExportAutomatedReasoningPolicyVersion por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API ExportAutomatedReasoningPolicyVersion por segundo. |
| (Raciocínio automatizado) Solicitações de GetAutomatedReasoningPolicy por segundo | Cada região com suporte: 10 | Sim |
Número máximo de solicitações da API GetAutomatedReasoningPolicy por segundo. |
| (Raciocínio automatizado) Solicitações de GetAutomatedReasoningPolicyAnnotations por segundo | Cada região com suporte: 10 | Sim |
Número máximo de solicitações da API GetAutomatedReasoningPolicyAnnotations por segundo. |
| (Raciocínio automatizado) Solicitações de GetAutomatedReasoningPolicyBuildWorkflow por segundo | Cada região com suporte: 10 | Sim |
Número máximo de solicitações da API GetAutomatedReasoningPolicyBuildWorkflow por segundo. |
| (Raciocínio automatizado) Solicitações de GetAutomatedReasoningPolicyBuildWorkflowResultAssets por segundo | Cada região com suporte: 10 | Sim |
Número máximo de solicitações da API GetAutomatedReasoningPolicyBuildWorkflowResultAssets por segundo. |
| (Raciocínio automatizado) Solicitações de GetAutomatedReasoningPolicyNextScenario por segundo | Cada região com suporte: 10 | Sim |
Número máximo de solicitações da API GetAutomatedReasoningPolicyNextScenario por segundo. |
| (Raciocínio automatizado) Solicitações de GetAutomatedReasoningPolicyTestCase por segundo | Cada região com suporte: 10 | Sim |
Número máximo de solicitações da API GetAutomatedReasoningPolicyTestCase por segundo. |
| (Raciocínio automatizado) Solicitações de GetAutomatedReasoningPolicyTestResult por segundo | Cada região com suporte: 10 | Sim |
Número máximo de solicitações da API GetAutomatedReasoningPolicyTestResult por segundo. |
| (Raciocínio automatizado) Solicitações de ListAutomatedReasoningPolicies por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API ListAutomatedReasoningPolicies por segundo. |
| (Raciocínio automatizado) Solicitações de ListAutomatedReasoningPolicyBuildWorkflows por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API ListAutomatedReasoningPolicyBuildWorkflows por segundo. |
| (Raciocínio automatizado) Solicitações de ListAutomatedReasoningPolicyTestCases por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API ListAutomatedReasoningPolicyTestCases por segundo. |
| (Raciocínio automatizado) Solicitações de ListAutomatedReasoningPolicyTestResults por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API ListAutomatedReasoningPolicyTestResults por segundo. |
| (Raciocínio automatizado) Políticas por conta | Cada região compatível: 100 | Não | Número máximo de políticas de raciocínio automatizado em uma conta. |
| (Raciocínio automatizado) Regras na política | Cada região com suporte: 500 | Não | Número máximo de regras em uma política de raciocínio automatizado. |
| (Raciocínio automatizado) Tamanho do documento de origem (MB) | Cada região compatível: 5 | Não | Tamanho máximo do documento de origem (MB) para a criação de uma política de raciocínio automatizado. |
| (Raciocínio automatizado) Tokens de documentos de origem | Cada região compatível: 122,880 | Não | Número máximo de tokens permitidos em um documento de origem ao criar uma política de raciocínio automatizado. |
| (Raciocínio automatizado) Solicitações de StartAutomatedReasoningPolicyBuildWorkflow por segundo | Cada região compatível: 1 | Sim |
Número máximo de solicitações da API StartAutomatedReasoningPolicyBuildWorkflow por segundo. |
| (Raciocínio automatizado) Solicitações de StartAutomatedReasoningPolicyTestWorkflow por segundo | Cada região compatível: 1 | Sim |
Número máximo de solicitações da API StartAutomatedReasoningPolicyTestWorkflow por segundo. |
| (Raciocínio automatizado) Testes por política | Cada região compatível: 100 | Não | Número máximo de testes por política de raciocínio automatizado. |
| (Raciocínio automatizado) Tipos por política | Cada região compatível: 50 | Não | Número máximo de tipos em uma política de raciocínio automatizado. |
| (Raciocínio automatizado) Solicitações de UpdateAutomatedReasoningPolicy por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API UpdateAutomatedReasoningPolicy por segundo. |
| (Raciocínio automatizado) Solicitações de UpdateAutomatedReasoningPolicyAnnotations por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API UpdateAutomatedReasoningPolicyAnnotations por segundo. |
| (Raciocínio automatizado) Solicitações de UpdateAutomatedReasoningPolicyTestCase por segundo | Cada região compatível: 5 | Sim |
Número máximo de solicitações da API UpdateAutomatedReasoningPolicyTestCase por segundo. |
| (Raciocínio automatizado) Valores por tipo na política | Cada região compatível: 50 | Não | Número máximo de valores por tipo em uma política de raciocínio automatizado. |
| (Raciocínio automatizado) Variáveis na política | Cada região compatível: 200 | Não | Número máximo de variáveis em uma política de raciocínio automatizado. |
| (Raciocínio automatizado) Versões por política | Cada região com suporte: 1.000 | Não | Número máximo de versões por política de raciocínio automatizado. |
| (Automação de dados) (Console) Tamanho máximo do arquivo de documento (MB) | Cada região compatível: 200 | Não | Tamanho máximo do arquivo para o console |
| (Automação de dados) (Console) Número máximo de páginas por arquivo de documento | Cada região compatível: 20 | Não | Número máximo de páginas por documento no console |
| (Automação de dados) CreateBlueprint - Número máximo de esquemas por conta | Cada região compatível: 350 | Sim |
Número máximo de esquemas por conta |
| (Automação de dados) CreateBlueprintVersion - Número máximo de versões de esquemas por esquema | Cada região com suporte: 10 | Sim |
Número máximo de versões por esquema |
| (Automação de dados) Comprimento da descrição dos campos (caracteres) | Cada região com suporte: 300 | Não | Comprimento máximo da descrição dos campos em caracteres |
| (Automação de dados) InvokeDataAutomationAsync - Áudio - Número máximo de trabalhos simultâneos |
us-east-1: 20 us-west-2: 20 Cada uma das outras regiões compatíveis: 2 |
Sim |
Número máximo de trabalhos abertos Invoke Data Automation Async para áudios |
| (Automação de dados) InvokeDataAutomationAsync - Documento - Número máximo de trabalhos simultâneos |
us-east-1: 25 us-west-2: 25 Cada uma das outras regiões compatíveis: 5 |
Sim |
Número máximo de trabalhos abertos Invoke Data Automation Async para documentos |
| (Automação de dados) InvokeDataAutomationAsync - Imagem - Número máximo de trabalhos simultâneos |
us-east-1: 20 us-west-2: 20 Cada uma das outras regiões compatíveis: 5 |
Sim |
Número máximo de trabalhos abertos Invoke Data Automation Async para imagens |
| (Automação de dados) InvokeDataAutomationAsync - Número máximo de trabalhos abertos | Cada região compatível: 1.800 | Não | Número máximo de trabalhos abertos Invoke Data Automation Async para imagens |
| (Automação de dados) InvokeDataAutomationAsync - Vídeo - Número máximo de trabalhos simultâneos |
us-east-1: 20 us-west-2: 20 Cada uma das outras regiões compatíveis: 3 |
Sim |
Número máximo de trabalhos abertos Invoke Data Automation Async para vídeos |
| (Automação de dados) InvokeEntityIngestionAsync - Pessoa - Número máximo de tokens | Cada região compatível: 600 | Sim |
Número máximo de tokens para a ingestão da entidade Pessoa |
| (Automação de dados) Taxa máxima de amostragem de áudio (Hz) | Cada região compatível: 48,000 | Não | A taxa máxima de amostragem de áudio |
| (Automação de dados) Máximo de esquemas por projeto (áudios) | Cada região compatível: 1 | Não | Número máximo de esquemas por projeto para áudios |
| (Automação de dados) Máximo de esquemas por projeto (documentos) | Cada região compatível: 40 | Não | Número máximo de esquemas por projeto para documentos |
| (Automação de dados) Máximo de esquemas por projeto (imagens) | Cada região compatível: 1 | Não | Número máximo de esquemas por projeto para imagens |
| (Automação de dados) Máximo de esquemas por projeto (vídeos) | Cada região compatível: 1 | Não | Número máximo de esquemas por projeto para vídeos |
| (Automação de dados) Tamanho máximo do esquema JSON (caracteres) | Cada região compatível: 100.000 | Não | Tamanho máximo do JSON em caracteres |
| (Automação de dados) Níveis máximos de hierarquia de campo | Cada região compatível: 1 | Não | Número máximo de níveis da hierarquia de campos |
| (Automação de dados) Número máximo de páginas por documento | Cada região com suporte: 3.000 | Não | Número máximo de páginas por documento |
| (Automação de dados) Resolução máxima | Cada região compatível: 8.000 | Não | A resolução máxima para imagens |
| (Automação de dados) Tamanho máximo do arquivo de áudio (MB) | Cada região compatível: 2.048 | Não | Tamanho máximo do arquivo de áudio |
| (Automação de dados) Duração máxima do áudio (minutos) | Cada região com suporte: 240 | Não | A duração máxima do áudio em minutos |
| (Automação de dados) Tamanho máximo do arquivo de documento (MB) | Cada região com suporte: 500 | Não | Tamanho máximo do arquivo |
| (Automação de dados) Tamanho máximo do arquivo de imagem (MB) | Cada região compatível: 5 | Não | Tamanho máximo do arquivo para imagens |
| (Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (áudios) | Cada região compatível: 1 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência |
| (Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (documentos) | Cada região com suporte: 10 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência |
| (Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (imagens) | Cada região compatível: 1 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência |
| (Automação de dados) Número máximo de esquemas por solicitação de início de inferência (vídeos) | Cada região compatível: 1 | Não | Número máximo de esquemas inline em Iniciar solicitação de inferência |
| (Automação de dados) Número máximo de campos de lista por esquema | Cada região compatível: 15 | Não | Número máximo de campos de lista por esquema |
| (Automação de dados) Tamanho máximo do arquivo de vídeo (MB) | Cada região compatível: 10,240 | Não | Tamanho máximo do arquivo para vídeos |
| (Automação de dados) Duração máxima do vídeo (minutos) | Cada região com suporte: 240 | Não | A duração máxima dos vídeos em minutos |
| (Automação de dados) Taxa mínima de amostragem de áudio (Hz) | Cada região compatível: 8.000 | Não | A taxa mínima de amostragem de áudio |
| (Automação de dados) Duração mínima do áudio (milissegundos) | Cada região com suporte: 500 | Não | A duração mínima do áudio em milissegundos |
| (Avaliação) Número de trabalhos simultâneos de avaliação automática de modelos | Cada região compatível: 20 | Não | Número máximo de trabalhos de avaliação automática de modelos que você pode especificar de uma só vez nessa conta na região atual. |
| (Avaliação) Número de trabalhos de avaliação de modelos simultâneos que usam operadores humanos | Cada região com suporte: 10 | Não | Número máximo de trabalhos de avaliação de modelos que usam operadores humanos que você pode especificar de uma só vez nessa conta na região atual. |
| (Avaliação) Número de métricas personalizadas | Cada região com suporte: 10 | Não | Número máximo de métricas personalizadas que você pode especificar em um trabalho de avaliação de modelo que usa operadores humanos. |
| (Avaliação) Número de conjuntos de dados de prompts personalizados em um trabalho de avaliação de modelo baseado em humanos | Cada região compatível: 1 | Não | Número máximo de conjuntos de dados de prompts personalizados que podem ser especificados em um trabalho de avaliação de modelo baseado em humanos nessa conta na região atual. |
| (Avaliação) Número de conjuntos de dados por trabalho | Cada região compatível: 5 | Não | Número máximo de conjuntos de dados que pode ser especificado em um trabalho de avaliação de modelo automatizado. Isso inclui conjuntos de dados de prompts personalizados e incorporados. |
| (Avaliação) Número de trabalhos de avaliação | Cada região com suporte: 5.000 | Não | Número máximo de trabalhos de avaliação de modelos que você pode criar nessa conta na região atual. |
| (Avaliação) Número de métricas por conjunto de dados | Cada região compatível: 3 | Não | Número máximo de métricas que você pode especificar por conjunto de dados em um trabalho de avaliação de modelo automatizado. Isso inclui métricas personalizadas e incorporadas. |
| (Avaliação) Número de modelos em um trabalho de avaliação de modelos que usa operadores humanos | Cada região compatível: 2 | Não | Número máximo de modelos que você pode especificar em um trabalho de avaliação de modelo que usa operadores humanos. |
| (Avaliação) Número de modelos no trabalho de avaliação automatizada de modelos | Cada região compatível: 1 | Não | Número máximo de modelos que pode ser especificado em um trabalho de avaliação de modelo automatizado. |
| (Avaliação) Número de prompts em um conjunto de dados de prompts personalizados | Cada região com suporte: 1.000 | Não | Número máximo de prompts que um conjunto de dados de prompts personalizados pode conter. |
| (Avaliação) Tamanho do prompt | Cada região compatível: 4 | Não | Tamanho máximo (em KB) de um prompt individual em um conjunto de dados de prompts personalizados. |
| (Avaliação) Tempo de tarefa para operadores | Cada região compatível: 30 | Não | A duração máxima (em dias) do tempo que um operador pode ter para concluir tarefas. |
| (Fluxos) Nós de agente por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de agente. |
| (Fluxos) Nós coletores por fluxo | Cada região compatível: 1 | Não | Número máximo de nós coletores. |
| (Fluxos) Nós de condição por fluxo | Cada região compatível: 5 | Não | Número máximo de nós de condições. |
| (Fluxos) Condições por nó de condições | Cada região compatível: 5 | Não | Número máximo de condições por nó de condições. |
| (Fluxos) Solicitações de CreateFlow por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de CreateFlow por segundo. |
| (Fluxos) Solicitações de CreateFlowAlias por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de CreateFlowAlias por segundo. |
| (Fluxos) Solicitações de CreateFlowVersion por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de CreateFlowVersion por segundo. |
| (Fluxos) Solicitações de DeleteFlow por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de DeleteFlow por segundo. |
| (Fluxos) Solicitações de DeleteFlowAlias por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de DeleteFlowAlias por segundo. |
| (Fluxos) Solicitações de DeleteFlowVersion por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de DeleteFlowVersion por segundo. |
| (Fluxos) Aliases de fluxo por fluxo | Cada região com suporte: 10 | Não | Número máximo de aliases de fluxo. |
| (Fluxos) Execuções de fluxo por conta | Cada região com suporte: 1.000 | Sim |
Número máximo de execuções de fluxo por conta. |
| (Fluxos) Versões de fluxo por fluxo | Cada região com suporte: 10 | Não | Número máximo de versões de fluxo. |
| (Fluxos) Fluxos por conta | Cada região compatível: 100 | Sim |
Número máximo de fluxos por conta. |
| (Fluxos) Solicitações de GetFlow por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de GetFlow por segundo. |
| (Fluxos) Solicitações de GetFlowAlias por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de GetFlowAlias por segundo. |
| (Fluxos) Solicitações de GetFlowVersion por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de GetFlowVersion por segundo. |
| (Fluxos) Nós de código inline por fluxo | Cada região compatível: 5 | Não | Número máximo de nós de código em linha por fluxo. |
| (Fluxos) Nós de entrada por fluxo | Cada região compatível: 1 | Não | Número máximo de nós de entrada de fluxo. |
| (Fluxos) Nós iteradores por fluxo | Cada região compatível: 1 | Não | Número máximo de nós iteradores. |
| (Fluxos) Nós de base de conhecimento por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de base de conhecimento. |
| (Fluxos) Nós de funções do Lambda por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de funçõesdo Lambda. |
| (Fluxos) Nós do Lex por fluxo | Cada região compatível: 5 | Não | Número máximo de nós do Lex. |
| (Fluxos) Solicitações de ListFlowAliases por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de ListFlowAliases por segundo. |
| (Fluxos) Solicitações de ListFlowVersions por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de ListFlowVersions por segundo. |
| (Fluxos) Solicitações de ListFlows por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de ListFlows por segundo. |
| (Fluxos) Nós de saída por fluxo | Cada região compatível: 20 | Não | Número máximo de nós de saída de fluxo. |
| (Fluxos) Solicitações de PrepareFlow por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de PrepareFlow por segundo. |
| (Fluxos) Nós de prompts por fluxo | Cada região compatível: 20 | Sim |
Número máximo de nós de prompts. |
| (Fluxos) Nós de recuperação do S3 por fluxo | Cada região com suporte: 10 | Não | Número máximo de nós de recuperação do S3. |
| (Fluxos) Nós de armazenamento do S3 por fluxo | Cada região com suporte: 10 | Não | Número máximo de nós de armazenamento do S3. |
| (Fluxos) Total de nós por fluxo | Cada região compatível: 40 | Não | Número máximo de nós em um fluxo. |
| (Fluxos) Solicitações de UpdateFlow por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de UpdateFlow por segundo. |
| (Fluxos) Solicitações de UpdateFlowAlias por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de UpdateFlowAlias por segundo. |
| (Fluxos) Solicitações de ValidateFlowDefinition por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de ValidateFlowDefinition por segundo. |
| (Barreiras de proteção) Políticas de raciocínio automatizado por barreira de proteção | Cada região compatível: 2 | Não | Número máximo de políticas de raciocínio automatizado por barreira de proteção. |
| (Barreiras de proteção) Tamanho da consulta de fundamentação contextual em unidades de texto | Cada região compatível: 1 | Não | Comprimento máximo, em unidades de texto, da consulta para fundamentação contextual |
| (Barreiras de proteção) Tamanho da resposta de fundamentação contextual em unidades de texto | Cada região compatível: 5 | Não | Tamanho máximo, em unidades de texto, da resposta para fundamentação contextual |
| (Barreiras de proteção) Tamanho da fonte de fundamentação contextual em unidades de texto |
us-east-1: 100 us-west-2: 100 Cada uma das outras regiões compatíveis: 50 |
Não | Tamanho máximo, em unidades de texto, da fonte de fundamentação para fundamentação contextual |
| (Barreiras de proteção) Frases de exemplo por tópico | Cada região compatível: 5 | Não | Número máximo de exemplos de tópicos que podem ser incluídos por tópico |
| (Barreiras de proteção) Barreiras de proteção por conta | Cada região compatível: 100 | Não | Número máximo de barreiras de proteção em uma conta |
| (Barreiras de proteção) Unidades de texto por segundo da política de filtro de conteúdo do ApplyGuardrail sob demanda |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
Número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo |
| (Barreiras de proteção) Unidades de texto por segundo da política de filtro de conteúdo do ApplyGuardrail sob demanda (padrão) |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
Número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo. Isso se aplica ao modelo de política de conteúdo padrão. |
| (Barreiras de proteção) Unidades de texto por segundo da política de tópico negado do ApplyGuardrail sob demanda |
us-east-1: 50 us-west-2: 50 Cada uma das outras regiões compatíveis: 25 |
Sim |
Número máximo de unidades de texto que podem ser processadas para políticas de tópico negado por segundo |
| (Barreiras de proteção) Unidades de texto por segundo da política de tópico negado do ApplyGuardrail sob demanda (padrão) |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
Número máximo de unidades de texto que podem ser processadas para políticas de tópico negado por segundo. Isso se aplica ao modelo de política de tópico padrão. |
| (Barreiras de proteção) Unidades de texto por segundo da política de filtro de informações confidenciais do ApplyGuardrail sob demanda |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
Número máximo de unidades de texto que podem ser processadas para políticas de filtro de informações confidenciais por segundo |
| (Barreiras de proteção) Unidades de texto por segundo da política de filtro de palavras do ApplyGuardrail sob demanda |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
Número máximo de unidades de texto que podem ser processadas para políticas de filtro de palavras por segundo |
| (Barreiras de proteção) Unidades de texto por segundo da política de fundamentação contextual do ApplyGuardrail sob demanda | Cada região com suporte: 106 | Sim |
Número máximo de unidades de texto que podem ser processadas para políticas de fundamentação contextual por segundo |
| (Barreiras de proteção) Solicitações de ApplyGuardrail sob demanda por segundo |
us-east-1: 50 us-west-2: 50 Cada uma das outras regiões compatíveis: 25 |
Sim |
Número máximo de chamadas de API do ApplyGuardrail permitidas por segundo |
| (Barreiras de proteção) Entidades regex no filtro de informações confidenciais | Cada região com suporte: 10 | Não | Número máximo de regexes de filtro de barreira de proteção que podem ser incluídos em uma política de informações confidenciais |
| (Barreiras de proteção) Comprimento do regex em caracteres | Cada região com suporte: 500 | Não | Comprimento máximo, em caracteres, de uma regex de filtro de barreira de proteção |
| (Guardrails) Tópicos por barreira de proteção | Cada região compatível: 30 | Não | Número máximo de tópicos que podem ser definidos nas políticas de tópicos de barreiras de proteção |
| (Grades de proteção) Versões por barreira de proteção | Cada região compatível: 20 | Não | Número máximo de versões que uma barreira de proteção pode ter |
| (Barreiras de proteção) Comprimento da palavra em caracteres | Cada região compatível: 100 | Não | Comprimento máximo de uma palavra, em caracteres, em uma lista de palavras bloqueadas |
| (Barreiras de proteção) Política de palavras por palavra | Cada região compatível: 10.000 | Não | Número máximo de palavras que podem ser incluídas em uma lista de palavras bloqueadas |
| (Bases de conhecimento) Solicitações simultâneas de IngestKnowledgeBaseDocuments e DeleteKnowledgeBaseDocuments por conta | Cada região com suporte: 10 | Não | Número máximo de solicitações de IngestKnowledgeBaseDocuments e DeleteKnowledgeBaseDocuments que podem ser executadas ao mesmo tempo em uma conta. |
| (Bases de conhecimento) Trabalhos de ingestão simultâneos por conta | Cada região compatível: 5 | Não | Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo em uma conta. |
| (Bases de conhecimento) Trabalhos de ingestão simultâneos por fonte de dados | Cada região compatível: 1 | Não | Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo para uma fonte de dados. |
| (Bases de conhecimento) Trabalhos de ingestão simultâneos por base de conhecimento | Cada região compatível: 1 | Não | Número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo para uma base de conhecimento. |
| (Bases de conhecimento) Solicitações de CreateDataSource por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API CreateDataSource por segundo. |
| (Bases de conhecimento) Solicitações de CreateKnowledgeBase por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API CreateKnowledgeBase por segundo. |
| (Bases de conhecimento) Fontes de dados por base de conhecimento | Cada região compatível: 5 | Não | Número máximo de fontes de dados por base de conhecimento. |
| (Bases de conhecimento) Solicitações de DeleteDataSource por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API DeleteDataSource por segundo. |
| (Bases de conhecimento) Solicitações de DeleteKnowledgeBase por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API DeleteKnowledgeBase por segundo. |
| (Bases de conhecimento) Solicitações de DeleteKnowledgeBaseDocuments por segundo | Cada região compatível: 5 | Não | Número máximo de solicitações da API DeleteKnowledgeBaseDocuments por segundo. |
| (Bases de conhecimento) Arquivos a serem adicionados ou atualizados por trabalho de ingestão | Cada região compatível: 5.000.000 | Não | Número máximo de arquivos novos e atualizados que podem ser ingeridos por trabalho de ingestão. |
| (Bases de conhecimento) Arquivos a serem excluídos por trabalho de ingestão | Cada região compatível: 5.000.000 | Não | Número máximo de arquivos que podem ser excluídos por trabalho de ingestão. |
| (Bases de conhecimento) Arquivos a serem ingeridos por trabalho IngestKnowledgeBaseDocuments. | Cada região compatível: 25 | Não | Número máximo de documentos que podem ser ingeridos por solicitação de IngestKnowledgeBaseDocuments. |
| (Bases de conhecimento) Solicitações de GenerateQuery por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API GenerateQuery por segundo. |
| (Bases de conhecimento) Solicitações de GetDataSource por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API GetDataSource por segundo. |
| (Bases de conhecimento) Solicitações de GetIngestionJob por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API GetIngestionJob por segundo. |
| (Bases de conhecimento) Solicitações de GetKnowledgeBase por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API GetKnowledgeBase por segundo. |
| (Bases de conhecimento) Solicitações de GetKnowledgeBaseDocuments por segundo | Cada região compatível: 5 | Não | Número máximo de solicitações da API GetKnowledgeBaseDocuments por segundo. |
| (Bases de conhecimento) Solicitações de IngestKnowledgeBaseDocuments por segundo | Cada região compatível: 5 | Não | Número máximo de solicitações da API IngestKnowledgeBaseDocuments por segundo. |
| (Bases de conhecimento) Tamanho total da carga útil de IngestKnowledgeBaseDocuments | Cada região compatível: 6 | Não | Tamanho máximo (em MB) da carga útil total em uma solicitação de IngestKnowledgeBaseDocuments. |
| (Bases de conhecimento) Tamanho do arquivo do trabalho de ingestão | Cada região compatível: 50 | Não | Tamanho máximo (em MB) de um arquivo em um trabalho de ingestão. |
| (Bases de conhecimento) Tamanho do trabalho de ingestão | Cada região compatível: 100 | Não | Tamanho máximo (em GB) de um trabalho de ingestão. |
| (Bases de conhecimento) Bases de conhecimento por conta | Cada região compatível: 100 | Não | Número máximo de bases de conhecimento por conta. |
| (Bases de conhecimento) Solicitações de ListDataSources por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListDataSources por segundo. |
| (Bases de conhecimento) Solicitações de ListIngestionJobs por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListIngestionJobs por segundo. |
| (Bases de conhecimento) Solicitações de ListKnowledgeBaseDocuments por segundo | Cada região compatível: 5 | Não | Número máximo de solicitações da API ListKnowledgeBaseDocuments por segundo. |
| (Bases de conhecimento) Solicitações de ListKnowledgeBases por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListKnowledgeBases por segundo. |
| (Bases de conhecimento) Número máximo de arquivos para o analisador de BDA | Cada região com suporte: 1.000 | Não | Número máximo de arquivos que podem ser usados com a automação de dados do Amazon Bedrock como analisador. |
| (Bases de conhecimento) Número máximo de arquivos para modelos de base como um analisador | Cada região com suporte: 1.000 | Não | Número máximo de arquivos que podem ser usados com modelos de base como um analisador. |
| (Bases de conhecimento) Solicitações de Rerank por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API Rerank por segundo. |
| (Bases de conhecimento) Solicitações de Retrieve por segundo | Cada região compatível: 20 | Não | Número máximo de solicitações da API Retrieve por segundo. |
| (Bases de conhecimento) Solicitações de RetrieveAndGenerate por segundo | Cada região compatível: 20 | Não | Número máximo de solicitações da API RetrieveAndGenerate por segundo. |
| (Bases de conhecimento) Solicitações de RetrieveAndGenerateStream por segundo | Cada região compatível: 20 | Não | Número máximo de solicitações da API RetrieveAndGenerateStream por segundo. |
| (Bases de conhecimento) Solicitações de StartIngestionJob por segundo | Cada região com suporte: 0.1 | Não | Número máximo de solicitações da API StartIngestionJob por segundo. |
| (Bases de conhecimento) Solicitações de UpdateDataSource por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API UpdateDataSource por segundo. |
| (Bases de conhecimento) Solicitações de UpdateKnowledgeBase por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API UpdateKnowledgeBase por segundo. |
| (Bases de conhecimento) Tamanho da consulta do usuário | Cada região com suporte: 1.000 | Não | Tamanho máximo (em caracteres) de uma consulta do usuário. |
| (Personalização de modelos) Modelos personalizados por conta | Cada região compatível: 100 | Sim |
Número máximo de modelos personalizados em uma conta. |
| (Personalização de modelos) Implantações de modelos personalizados em andamento | Cada região compatível: 2 | Sim |
Número máximo de implantações de modelos personalizados em andamento |
| (Personalização de modelo) Tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação | Cada região compatível: 2 gigabites | Não | Tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação. |
| (Personalização de modelo) Comprimento máximo da linha para trabalhos de personalização da destilação | Cada região compatível: 16 kilobytes | Não | Comprimento máximo da linha no arquivo de entrada para trabalhos de personalização de destilação. |
| (Personalização de modelo) Número máximo de prompts para trabalhos de personalização de destilação | Cada região compatível: 15.000 | Não | Número máximo de prompts necessários para trabalhos de personalização de destilação. |
| (Personalização de modelo) Número máximo de registros de treinamento para um trabalho de ajuste fino do Amazon Nova Canvas | Cada região com suporte: 10.000 | Sim |
Número máximo de registros permitidos para um trabalho de ajuste fino do Amazon Nova Canvas. |
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova Micro V1 | Cada região compatível: 32,000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova Micro V1. |
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova V1 | Cada região compatível: 32,000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Amazon Nova V1. |
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Anthropic Claude 3 haiku 20240307 V1 | Cada região compatível: 32,000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Anthropic Claude 3 haiku 20240307 V1. |
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1 | Cada região compatível: 16.000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1. |
| (Personalização de modelo) Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1 | Cada região compatível: 32,000 | Não | Comprimento máximo do contexto de ajuste fino do modelo aprendiz para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1. |
| (Personalização de modelo) Número mínimo de prompts para trabalhos de personalização de destilação | Cada região compatível: 100 | Não | Número mínimo de prompts necessário para trabalhos de personalização de destilação. |
| (Personalização de modelo) Trabalhos de personalização programados | Cada região com suporte: 10 | Não | Número máximo de trabalhos de personalização programados. |
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Lite | Cada região compatível: 2.000 | Não | Soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Lite |
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Micro | Cada região compatível: 2.000 | Não | Soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Micro |
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Pro | Cada região compatível: 200 | Não | Soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Pro |
| (Personalização de modelo) Soma das solicitações de implantação de modelos personalizados sob demanda por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 400 | Não | Soma das solicitações de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviadas às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 3.3 70B Instruct |
| (Personalização de modelo) Soma dos tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova Lite | Cada região compatível: 5.760.000.000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Lite |
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por dia para o Amazon Nova Micro | Cada região compatível: 5.760.000.000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Micro |
| (Personalização de modelo) Soma de tokens de implantação de modelo personalizado sob demanda por dia para o Amazon Nova Pro | Cada região compatível: 1.152.000.000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Pro |
| (Personalização de modelo) Soma dos tokens de implantação de modelos personalizados sob demanda por dia para o Meta Llama 3.3 70B Instruct | Cada região compatível: 432.000.000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por dia enviados às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 3.3 70B Instruct |
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Lite | Cada região compatível: 4.000.000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviados às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Lite |
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Micro | Cada região compatível: 4.000.000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviados às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Nova Micro |
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para o Amazon Nova Pro | Cada região compatível: 800,000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviados para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream do Amazon Nova Pro |
| (Personalização de modelo) Soma de tokens de implantação de modelos personalizados sob demanda por minuto para Meta Llama 3.3 70B Instruct | Cada região compatível: 300.000 | Não | Soma dos tokens de implantação de modelos personalizados sob demanda de entrada e saída por minuto enviados às ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 3.3 70B Instruct |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Amazon Nova Lite | Cada região com suporte: 20.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Amazon Nova Lite. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Amazon Nova Micro | Cada região com suporte: 20.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Amazon Nova Micro. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Amazon Nova Pro | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Amazon Nova Pro. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Claude 3 Haiku v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Claude 3 Haiku. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Claude 3-5-Haiku v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Claude 3-5-Haiku. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 2 13B v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 2 13B. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 2 70B v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 2 70B. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.1 70B Instruct v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.1 70B Instruct. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.1 8B Instruct v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.1 8B Instruct. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 11B Instruct v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 11B Instruct. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 1B Instruct v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 1B Instruct. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 3B Instruct v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 3B Instruct. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.2 90B Instruct v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 90B Instruct. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 3.3 70B Instruct v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.3 70B Instruct. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Image Generator G1 V1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Image Generator. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Image Generator G1 V2 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Image Generator V2. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Multimodal Embeddings G1 v1 | Cada região compatível: 50.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Multimodal Embeddings. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de pré-treinamento contínuo do Titan Text G1 - Express v1 | Cada região compatível: 100.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de pré-treinamento contínuo do Titan Text Express. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Text G1 - Express v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Text Express. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de pré-treinamento contínuo do Titan Text G1 - Lite v1 | Cada região compatível: 100.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de pré-treinamento contínuo do Titan Text Lite. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Text G1 - Lite v1 | Cada região com suporte: 10.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Text Lite. |
| (Personalização de modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Text G1 - Premier v1 | Cada região com suporte: 20.000 | Sim |
Número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Titan Text Premier. |
| (Personalização de modelos) Número total de implantações de modelos personalizados | Cada região com suporte: 10 | Sim |
Número total de implantações de modelos personalizados |
| (Gerenciamento de prompts) Solicitações de CreatePrompt por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de CreatePrompt por segundo. |
| (Gerenciamento de prompts) Solicitações de CreatePromptVersion por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de CreatePromptVersion por segundo. |
| (Gerenciamento de prompts) Solicitações de DeletePrompt por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de DeletePrompt por segundo. |
| (Gerenciamento de prompts) Solicitações de GetPrompt por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de GetPrompt por segundo. |
| (Gerenciamento de prompts) Solicitações de ListPrompts por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações de ListPrompts por segundo. |
| (Gerenciamento de prompts) Prompts por conta | Cada região com suporte: 500 | Sim |
Número máximo de prompts. |
| (Gerenciamento de prompts) Solicitações de UpdatePrompt por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações de UpdatePrompt por segundo. |
| (Gerenciamento de prompts) Versões por prompt | Cada região com suporte: 10 | Não | Número máximo de versões por prompt. |
| APIs por agente | Cada região compatível: 11 | Sim |
Número máximo de APIs que você pode adicionar a um agente. |
| Grupos de ações por agente | Cada região compatível: 20 | Sim |
Número máximo de grupos de ações que podem ser adicionados a um agente. |
| Colaboradores de agente por agente | Cada região com suporte: 1.000 | Sim |
Número máximo de agentes colaboradores que você pode adicionar a um agente. |
| Agentes por conta | Cada região com suporte: 1.000 | Sim |
Número máximo de agentes em uma conta. |
| Solicitações de AssociateAgentKnowledgeBase por segundo | Cada região compatível: 6 | Não | Número máximo de solicitações da API AssociateAgentKnowledgeBase por segundo. |
| Aliases associados por agente | Cada região com suporte: 10 | Não | Número máximo de aliases que pode ser associado a um Agente. |
| Bases de conhecimento associadas por agente | Cada região compatível: 2 | Sim |
Número máximo de bases de conhecimento que podem ser associadas a um agente. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Amazon Nova Premier | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Amazon Nova Premier. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Haiku | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Haiku. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Opus | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Opus. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3 Sonnet | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Sonnet. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Haiku | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Haiku. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Sonnet | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.5 Sonnet v2 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet v2. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Claude 3.7 Sonnet | Cada região compatível: 1 | Sim |
Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.7 Sonnet. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude Sonnet 4 | Cada região compatível: 1 | Sim |
Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude Sonnet 4. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 405B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 405B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 70B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 70B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.1 8B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 8B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 11B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 11B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 1B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 1B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 3B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 3B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.2 90B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 90B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 3.3 70B Instruct | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.3 70B Instruct. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 4 Maverick | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Maverick. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Llama 4 Scout | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Scout. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Mistral Large 2 (24.07) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Large 2 (24.07). |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Mistral Small | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Small. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Lite V1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Lite V1. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Micro V1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Micro V1. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Nova Pro V1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Pro V1. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o OpenAI GPT OSS 120b | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS 120b. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o OpenAI GPT OSS 20b | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o OpenAI GPT OSS 20b. |
| Tamanho do arquivo de entrada de inferência em lote (em GB) para o Titan Multimodal Embeddings G1 | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Titan Multimodal Embeddings G1. |
| Tamanho do arquivo de entrada de inferência em lote para o DeepSeek v3 (em GB) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o DeepSeek v3. |
| Tamanho do arquivo de entrada de inferência em lote para o Qwen3 235B (em GB) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 235B. |
| Tamanho do arquivo de entrada de inferência em lote para o Qwen3 32B (em GB) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 32B. |
| Tamanho do arquivo de entrada de inferência em lote para o Qwen3 Coder 30B (em GB) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder 30B. |
| Tamanho do arquivo de entrada de inferência em lote para o Qwen3 Coder 480B (em GB) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Qwen3 Coder 480B. |
| Tamanho do arquivo de entrada de inferência em lote para o Titan Text Embeddings V2 (em GB) | Cada região compatível: 1 | Não | Tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Titan Text Embeddings V2. |
| Tamanho do trabalho de inferência em lote (em GB) para o Amazon Nova Premier | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Amazon Nova Premier. |
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Haiku | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Haiku. |
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Opus | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Opus. |
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3 Sonnet | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3 Sonnet. |
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.5 Haiku | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Haiku. |
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.5 Sonnet | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Sonnet. |
| Tamanho do trabalho de inferência em lote (em GB) para o 3.5 Sonnet v2 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.5 Sonnet v2. |
| Tamanho do trabalho de inferência em lote (em GB) para o Claude 3.7 Sonnet | Cada região compatível: 5 | Sim |
Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude 3.7 Sonnet. |
| Tamanho do trabalho de inferência em lote (em GB) para o Claude Sonnet 4 | Cada região compatível: 5 | Sim |
Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Claude Sonnet 4. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 405B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 70B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 8B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 11B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 1B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 1B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 3B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 90B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.3 70B Instruct | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 4 Maverick | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Maverick. |
| Tamanho do trabalho de inferência em lote (em GB) para o Llama 4 Scout | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Scout. |
| Tamanho do trabalho de inferência em lote (em GB) para o Mistral Large 2 (24.07) | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Mistral Large 2 (24.07). |
| Tamanho do trabalho de inferência em lote (em GB) para o Mistral Small | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Mistral Small. |
| Tamanho do trabalho de inferência em lote (em GB) para o Nova Lite V1 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Lite V1. |
| Tamanho do trabalho de inferência em lote (em GB) para o Nova Micro V1 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Micro V1. |
| Tamanho do trabalho de inferência em lote (em GB) para o Nova Pro V1 | Cada região compatível: 100 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Pro V1. |
| Tamanho do trabalho de inferência em lote (em GB) para o OpenAI GPT OSS 120b | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS 120b. |
| Tamanho do trabalho de inferência em lote (em GB) para o OpenAI GPT OSS 20b | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o OpenAI GPT OSS 20b. |
| Tamanho do trabalho de inferência em lote (em GB) para o Titan Multimodal Embeddings G1 | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
| Tamanho do trabalho de inferência em lote para o DeepSeek v3 (em GB) | Cada região compatível: 5 | Não | Tamanho cumulativo máximo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o DeepSeek v3. |
| Tamanho do trabalho de inferência em lote para o Qwen3 235B (em GB) | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 235B. |
| Tamanho do trabalho de inferência em lote para o Qwen3 32B (em GB) | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 32B. |
| Tamanho do trabalho de inferência em lote para o Qwen3 Coder 30B (em GB) | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder 30B. |
| Tamanho do trabalho de inferência em lote para o Qwen3 Coder 480B (em GB) | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Qwen3 Coder 480B. |
| Tamanho do trabalho de inferência em lote para o Titan Text Embeddings V2 (em GB) | Cada região compatível: 5 | Não | Tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Titan Text Embeddings V2. |
| Caracteres nas instruções do agente | Cada região com suporte: 20.000 | Não | Número máximo de caracteres nas instruções de um agente. |
| Trabalhos simultâneos de importação de modelos | Cada região compatível: 1 | Não | Número máximo de trabalhos de importação de modelos que estão em andamento ao mesmo tempo. |
| Solicitações de CreateAgent por segundo | Cada região compatível: 6 | Não | Número máximo de solicitações da API CreateAgent por segundo. |
| Solicitações de CreateAgentActionGroup por segundo | Cada região compatível: 12 | Não | Número máximo de solicitações da API CreateAgentActionGroup por segundo. |
| Solicitações de CreateAgentAlias por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API CreateAgentAlias por segundo. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Haiku | Cada região compatível: 2.000 | Não | Número máximo de vezes que você pode chamar InvokeModel e InvokeModelWithResponseStream em um minuto. A cota considera a soma combinada de tokens InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3.5 Haiku. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet V2 |
us-west-2: 500 Cada uma das outras regiões compatíveis: 100 |
Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Haiku do Anthropic Claude 3.5 | Cada região compatível: 4.000.000 | Sim |
Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3.5 Haiku. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet V2 |
us-west-2: 4,000,000 Cada uma das outras regiões compatíveis: 800,000 |
Sim |
Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Lite |
us-east-1: 4,000 us-east-2: 4,000 us-west-1: 4,000 us-west-2: 4,000 Cada uma das outras regiões compatíveis: 400 |
Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Micro |
us-east-1: 4,000 us-east-2: 4,000 us-west-2: 4,000 Cada uma das outras regiões compatíveis: 400 |
Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Premier V1 | Cada região com suporte: 500 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Amazon Nova Pro | Cada região com suporte: 500 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Haiku |
us-east-1: 2.000 us-west-2: 2.000 ap-northeast-1: 400 ap-southeast-1: 400 Cada uma das outras regiões compatíveis: 800 |
Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Haiku. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Opus | Cada região compatível: 100 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Sonnet |
us-east-1: 1.000 us-west-2: 1.000 Cada uma das outras regiões compatíveis: 200 |
Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet |
us-west-2: 500 ap-northeast-1: 40 ap-southeast-1: 40 eu-central-1: 40 eu-west-1: 40 eu-west-3: 40 Cada uma das outras regiões compatíveis: 100 |
Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.7 Sonnet V1 |
us-east-1: 250 us-east-2: 250 us-west-2: 250 eu-central-1: 100 eu-north-1: 100 eu-west-1: 100 eu-west-3: 100 Cada uma das outras regiões compatíveis: 50 |
Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Haiku 4.5 | Cada região compatível: 125 | Sim |
Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4 V1 | Cada região compatível: 200 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4.1 | Cada região compatível: 50 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200 | Sim |
Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length | Cada região compatível: 5 | Sim |
Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 | Cada região compatível: 200 | Sim |
Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região compatível: 5 | Sim |
Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Cohere Embed V4 | Cada região compatível: 2.000 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o DeepSeek R1 V1 | Cada região compatível: 200 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o DeepSeek R1 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 1.600 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 1.600 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 1.600 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de solicitações para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 4 Maverick V1 | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 4 Scout V1 | Cada região compatível: 800 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Mistral Pixtral Large 25.02 V1 | Cada região com suporte: 10 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Conservative Upscale | Cada região compatível: 4 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Conservative Upscale. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Control Sketch | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Sketch. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Control Structure | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Structure. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Creative Upscale | Cada região compatível: 4 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Erase Object | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Erase Object. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Fast Upscale | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Fast Upscale. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Inpaint | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Inpaint. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Outpaint | Cada região compatível: 4 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Outpaint. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Remove Background | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Remove Background. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Search and Recolor | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Recolor. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Search and Replace | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Replace. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Style Guide | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Guide. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Stable Image Style Transfer | Cada região compatível: 20 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Transfer. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Twelve Labs Marengo | Cada região compatível: 200 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Marengo. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Twelve Labs Pegasus | Cada região compatível: 120 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X4 V1 | Cada região com suporte: 10 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X5 V1 | Cada região com suporte: 10 | Não | Número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Lite |
us-east-1: 8,000,000 us-east-2: 8,000,000 us-west-1: 8,000,000 us-west-2: 8,000,000 Cada uma das outras regiões compatíveis: 400,000 |
Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Micro |
us-east-1: 8,000,000 us-east-2: 8,000,000 us-west-2: 8,000,000 Cada uma das outras regiões compatíveis: 400,000 |
Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Premier V1 | Cada região compatível: 2.000.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Pro | Cada região compatível: 2.000.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Haiku |
us-east-1: 4,000,000 us-west-2: 4,000,000 ap-northeast-1: 400,000 ap-southeast-1: 400,000 Cada uma das outras regiões compatíveis: 600,000 |
Sim |
Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Haiku. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Opus | Cada região compatível: 800,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Sonnet |
us-east-1: 2,000,000 us-west-2: 2,000,000 Cada uma das outras regiões compatíveis: 400,000 |
Sim |
Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet |
us-west-2: 4,000,000 ap-northeast-1: 400,000 ap-southeast-1: 400,000 eu-central-1: 400,000 eu-west-1: 400,000 eu-west-3: 400,000 Cada uma das outras regiões compatíveis: 800,000 |
Sim |
Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.7 Sonnet V1 |
us-east-1: 1,000,000 us-east-2: 1,000,000 us-west-2: 1,000,000 eu-central-1: 100,000 eu-north-1: 100,000 eu-west-1: 100,000 eu-west-3: 100,000 Cada uma das outras regiões compatíveis: 50,000 |
Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Haiku 4.5 | Cada região compatível: 500.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4 V1 | Cada região compatível: 200.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Opus 4.1 | Cada região compatível: 500.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length | Cada região com suporte: 1.000.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1 1M Context Length. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 | Cada região compatível: 200.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região com suporte: 1.000.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Cohere Embed V4 | Cada região compatível: 300.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o DeepSeek R1 V1 | Cada região compatível: 200.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o DeepSeek R1 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 800,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 600,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 600,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 600,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 600,000 | Sim |
Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 600,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 4 Maverick V1 | Cada região compatível: 600,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Meta Llama 4 Scout V1 | Cada região compatível: 600,000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Mistral Pixtral Large 25.02 V1 | Cada região compatível: 80.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X4 V1 | Cada região compatível: 150.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X5 V1 | Cada região compatível: 150.000 | Sim |
Número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Modelos personalizados com status de criação por conta | Cada região compatível: 2 | Sim |
Número máximo de modelos personalizados com status de criação. |
| Solicitações de DeleteAgent por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API DeleteAgent por segundo. |
| Solicitações de DeleteAgentActionGroup por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API DeleteAgentActionGroup por segundo. |
| Solicitações de DeleteAgentAlias por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API DeleteAgentAlias por segundo. |
| Solicitações de DeleteAgentVersion por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API DeleteAgentVersion por segundo. |
| Solicitações de DisassociateAgentKnowledgeBase por segundo | Cada região compatível: 4 | Não | Número máximo de solicitações da API DisassociateAgentKnowledgeBase por segundo. |
| Grupos de ações habilitados por agente | Cada região compatível: 15 | Sim |
Número máximo de grupos de ações que podem ser habilitados em um agente. |
| Endpoints por perfil de inferência | Cada região compatível: 5 | Não | Número máximo de endpoints em um perfil de inferência. Um endpoint é definido por um modelo e pela região para a qual as solicitações de invocação do modelo são enviadas. |
| Solicitações de GetAgent por segundo | Cada região compatível: 15 | Não | Número máximo de solicitações da API GetAgent por segundo. |
| Solicitações de GetAgentActionGroup por segundo | Cada região compatível: 20 | Não | Número máximo de solicitações da API GetAgentActionGroup por segundo. |
| Solicitações de GetAgentAlias por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API GetAgentAlias por segundo. |
| Solicitações de GetAgentKnowledgeBase por segundo | Cada região compatível: 15 | Não | Número máximo de solicitações da API GetAgentKnowledgeBase por segundo. |
| Solicitações de GetAgentVersion por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API GetAgentVersion por segundo. |
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Haiku 4.5 | Cada região compatível: 250 | Não | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200 | Não | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 | Cada região compatível: 200 | Não | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região compatível: 5 | Não | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo global entre regiões por minuto para o Cohere Embed V4 | Cada região compatível: 2.000 | Não | Número máximo de solicitações globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Haiku 4.5 | Cada região compatível: 1.440.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 288.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4.5 V1 | Cada região compatível: 720.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região compatível: 1.440.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por dia para o Cohere Embed V4 | Cada região compatível: 432.000.000 | Não | Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um dia para o Cohere Embed V4. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Haiku 4.5 | Cada região com suporte: 1.000.000 | Sim |
Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Haiku 4.5. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200.000 | Sim |
Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 | Cada região compatível: 500.000 | Sim |
Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length | Cada região com suporte: 1.000.000 | Sim |
Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo global entre regiões por minuto para o Cohere Embed V4 | Cada região compatível: 300.000 | Sim |
Número máximo de tokens globais entre regiões que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Modelos importados por conta | Cada região compatível: 3 | Sim |
Número máximo de modelos importados em uma conta. |
| Perfis de inferência por conta | Cada região com suporte: 1.000 | Sim |
Número máximo de perfis de inferência em uma conta. |
| Solicitações de ListAgentActionGroups por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListAgentActionGroups por segundo. |
| Solicitações de ListAgentAliases por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListAgentAliases por segundo. |
| Solicitações de ListAgentKnowledgeBases por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListAgentKnowledgeBases por segundo. |
| Solicitações de ListAgentVersions por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListAgentVersions por segundo. |
| Solicitações de ListAgents por segundo | Cada região com suporte: 10 | Não | Número máximo de solicitações da API ListAgents por segundo. |
| Número mínimo de registros por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Haiku | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Haiku. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Opus | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Opus. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3 Sonnet | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Haiku | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Sonnet | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.5 Sonnet v2 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude 3.7 Sonnet | Cada região compatível: 100 | Sim |
Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet. |
| Número mínimo de registros por trabalho de inferência em lote para o Claude Sonnet 4 | Cada região compatível: 100 | Sim |
Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4. |
| Número mínimo de registros por trabalho de inferência em lote para o DeepSeek v3 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o DeepSeek v3. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 405B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 70B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.1 8B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 11B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 1B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 3B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 3.3 70B Instruct | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. |
| Número mínimo de registros por trabalho de inferência em lote para o Llama 4 Scout | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout. |
| Número mínimo de registros por trabalho de inferência em lote para o Mistral Large 2 (24.07) | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07). |
| Número mínimo de registros por trabalho de inferência em lote para o Mistral Small | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small. |
| Número mínimo de registros por trabalho de inferência em lote para o Nova Lite V1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1. |
| Número mínimo de registros por trabalho de inferência em lote para o Nova Micro V1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1. |
| Número mínimo de registros por trabalho de inferência em lote para o Nova Pro V1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1. |
| Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS 120b | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b. |
| Número mínimo de registros por trabalho de inferência em lote para o OpenAI GPT OSS 20b | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b. |
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 235B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 235B. |
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 32B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 32B. |
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder 30B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B. |
| Número mínimo de registros por trabalho de inferência em lote para o Qwen3 Coder 480B | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B. |
| Número mínimo de registros por trabalho de inferência em lote para o Titan Multimodal Embeddings G1 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
| Número mínimo de registros por trabalho de inferência em lote para o Titan Text Embeddings V2 | Cada região compatível: 100 | Não | Número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. |
| Tokens máximos de invocação de modelo por dia para o Amazon Nova Premier V1 (dobrado para chamadas entre regiões) | Cada região compatível: 1.440.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Amazon Nova Premier V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude 3.7 Sonnet V1 (dobrado para chamadas entre regiões) | Cada região compatível: 720.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude 3.7 Sonnet V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Haiku 4.5 (dobrado para chamadas entre regiões) | Cada região compatível: 360.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Haiku 4.5. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Opus 4 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Opus 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Opus 4.1 (dobrado para chamadas entre regiões) | Cada região compatível: 360.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Opus 4.1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4 V1 1M Context Length (dobrado para chamadas entre regiões) | Cada região compatível: 720.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4 V1 1M Context Length. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Anthropic Claude Sonnet 4.5 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4.5 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Máximo de tokens de invocação de modelo por dia para o Anthropic Claude Sonnet 4.5 V1 1M Context Length (dobrado para chamadas entre regiões) | Cada região compatível: 720.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Anthropic Claude Sonnet 4.5 V1 1M Context Length. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Cohere Embed V4 (dobrado para chamadas entre regiões) | Cada região compatível: 216.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Cohere Embed V4. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o DeepSeek R1 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000 | Não | Máximo diário de tokens para inferência de modelo para o DeepSeek R1 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o DeepSeek V3 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o DeepSeek V3 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o OpenAI GPT OSS 120B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o OpenAI GPT OSS 120B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o OpenAI GPT OSS 20B (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o OpenAI GPT OSS 20B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Qwen3 235B a22b 2507 V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo de tokens diários para inferência de modelo para o Qwen3 235B a22b 2507 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Tokens máximos de invocação de modelo por dia para o Qwen3 32B V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo diário de tokens para inferência de modelo para o Qwen3 32B V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Máximo de tokens de invocação de modelo por dia para o Qwen3 Coder 30B a3b V1 (duplicado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo de tokens diários para inferência de modelo para o Qwen3 Coder 30B a3b V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Máximo de tokens de invocação de modelo por dia para o Qwen3 Coder 480B a35b V1 (dobrado para chamadas entre regiões) | Cada região compatível: 144.000.000.000 | Não | Máximo de tokens diários para inferência de modelo para o Qwen3 Coder 480B a35b V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. Duplicado para chamadas entre regiões; não aplicável em caso de aumento de TPM aprovado. |
| Unidades de modelo para Throughputs provisionados sem compromisso entre modelos base | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser distribuídas em Throughputs provisionados sem compromisso para modelos base |
| Unidades de modelo para Throughputs provisionados sem compromisso entre modelos personalizados | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser distribuídas em Throughputs provisionados sem compromisso para modelos personalizados |
| Unidades de modelo por modelo provisionado para o AI21 Labs Jurassic-2 Mid | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o AI21 Labs Jurassic-2 Mid. |
| Unidades de modelo por modelo provisionado para o AI21 Labs Jurassic-2 Ultra | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o AI21 Labs Jurassic-2 Ultra. |
| Unidades de modelo por modelo provisionado para o Amazon Nova Canvas | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Nova Canvas. |
| Unidades de modelo por modelo provisionado para o Amazon Titan Embeddings G1 - Text | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Embeddings G1 - Text. |
| Unidades de modelo por modelo provisionado para o Gerador de Imagens do Amazon Titan G1 | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Gerador de Imagens do Amazon Titan G1. |
| Unidades de modelo por modelo provisionado para o Gerador de Imagens do Amazon Titan G2 | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Gerador de Imagens do Amazon Titan G2. |
| Unidades de modelo por modelo provisionado para o Amazon Titan Lite V1 4K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Lite V1 4K. |
| Unidades de modelo por modelo provisionado para o Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Multimodal Embeddings G1. |
| Unidades de modelo por modelo provisionado para o Amazon Titan Text Embeddings V2 | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Embeddings V2. |
| Unidades de modelo por modelo provisionado para o Amazon Titan Text G1 - Express 8K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text G1 - Express 8K. |
| Unidades de modelo por modelo provisionado para o Amazon Titan Text Premier V1 32K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Amazon Titan Text Premier V1 32K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Haiku 200K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Haiku 200K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Haiku 48K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Haiku 48K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Sonnet 200K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Sonnet 200K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3 Sonnet 28K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3 Sonnet 28K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 16K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 16K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 200K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 200K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Haiku 64K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Haiku 64K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 18K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 18K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 200K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 200K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet 51K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 51K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 18K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 18K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 200K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 200K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 51K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 51K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 18K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 18K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 200K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 200K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 51K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 51K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude Instant V1 100K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude Instant V1 100K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude V2 100K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2 100K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude V2 18K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2 18K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude V2.1 18K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2.1 18K. |
| Unidades de modelo por modelo provisionado para o Anthropic Claude V2.1 200K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Anthropic Claude V2.1 200K. |
| Unidades de modelo por modelo provisionado para o Cohere Command | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command. |
| Unidades de modelo por modelo provisionado para o Cohere Command Light | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command Light. |
| Unidades de modelo por modelo provisionado para o Cohere Command R | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command R 128k. |
| Unidades de modelo por modelo provisionado para o Cohere Command R Plus | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Command R Plus 128k. |
| Unidades de modelo por modelo provisionado para o Cohere Embed English | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Embed English. |
| Unidades de modelo por modelo provisionado para o Cohere Embed Multilingual | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Cohere Embed Multilingual. |
| Unidades de modelo por modelo provisionado para o Meta Llama 2 13B | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 13B. |
| Unidades de modelo por modelo provisionado para o Meta Llama 2 70B | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 70B. |
| Unidades de modelo por modelo provisionado para o Meta Llama 2 Chat 13B | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 Chat 13B. |
| Unidades de modelo por modelo provisionado para o Meta Llama 2 Chat 70B | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 2 Chat 70B. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3 70B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3 70B Instruct. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3 8B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3 8B Instruct. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3.1 70B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.1 70B Instruct. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3.1 8B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.1 8B Instruct. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 11B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 11B Instruct. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 1B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 1B Instruct. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 3B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 3B Instruct. |
| Unidades de modelo por modelo provisionado para o Meta Llama 3.2 90B Instruct | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Meta Llama 3.2 90B Instruct. |
| Unidades de modelo por modelo provisionado para o Mistral Large 2407 | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Mistral Large 2407. |
| Unidades de modelo por modelo provisionado para o Mistral Small | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Mistral Small. |
| Unidades de modelo por modelo provisionado para o Stability.ai Stable Diffusion XL 0.8 | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Stability.ai Stable Diffusion XL 0.8 |
| Unidades de modelo por modelo provisionado para o Stability.ai Stable Diffusion XL 1.0 | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para o Stability.ai Stable Diffusion XL 1.0. |
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 128k para o Amazon Nova Micro | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 128k para o Amazon Nova Micro |
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite |
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Micro | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Micro |
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Pro | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Pro |
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Lite | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Lite |
| Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Pro | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser atribuídas a um modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Pro. |
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Llama 4 Scout 17B Instruct 10M | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Scout 17B Instruct 10M, com compromisso. |
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Llama 4 Scout 17B Instruct 128 K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Scout 17B Instruct 128 K, com compromisso. |
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Maverick 4 Scout 17B Instruct 128 K | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Maverick 17B Instruct 128 K, com compromisso. |
| Unidades de modelo com compromisso para Throughout provisionada criadas para o Meta Maverick 4 Scout 17B Instruct 1M | Cada região compatível: 0 | Sim |
Número máximo de unidades de modelo que podem ser alocadas a um Throughput provisionado criado para o Meta Llama 4 Maverick 17B Instruct 1M, com compromisso. |
| Número de roteadores de prompts personalizados por conta | Cada região com suporte: 500 | Não | Número máximo de roteadores de prompts personalizados que você pode criar por conta e por região. |
| Solicitações de inferência de modelo sob demanda e otimizadas para latência por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 100 | Não | Número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda e otimizadas para latência por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 100 | Não | Número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda e otimizados para latência por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 40.000 | Não | Número máximo de tokens sob demanda otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda e otimizados para latência por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 40.000 | Não | Número máximo de tokens sob demanda otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações simultâneas assíncronas de InvokeModel sob demanda para o Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 30 | Não | Número máximo de solicitações de inferência de modelo simultâneas assíncronas que você pode enviar para o Amazon Nova 2 Multimodal Embeddings V1. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações simultâneas de InvokeModel sob demanda para o Amazon Nova Reel1.0 | Cada região com suporte: 10 | Não | Número máximo de solicitações de inferência de modelo simultâneas que você pode enviar para o Amazon Nova Reel 1.0. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações simultâneas de InvokeModel sob demanda para o Amazon Nova Reel1.1 | Cada região compatível: 3 | Não | Número máximo de solicitações de inferência de modelo simultâneas que você pode enviar para o Amazon Nova Reel 1.1. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações simultâneas de InvokeModel sob demanda para o Amazon Nova Sonic | Cada região compatível: 20 | Não | Número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Amazon Nova Sonic. |
| Solicitações simultâneas de InvokeModel sob demanda para o Twelve Labs Marengo | Cada região compatível: 30 | Não | Número máximo de solicitações de InvokeModel simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Marengo. |
| Solicitações simultâneas de InvokeModel sob demanda para o Twelve Labs Pegasus | Cada região compatível: 30 | Não | Número máximo de solicitações de InvokeModel simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Pegasus. |
| Solicitações de inferência de modelo otimizadas para latência sob demanda por minuto para o Anthropic Claude 3.5 Haiku | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3.5 Haiku, se a otimização de latência estiver configurada. |
| Tokens de inferência de modelo otimizados para latência sob demanda por minuto para o Anthropic Claude 3.5 Haiku | Cada região compatível: 500.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3.5 Haiku, se a otimização de latência estiver configurada. |
| Solicitações simultâneas de inferência de modelo sob demanda para o Luma Ray V2 | Cada região compatível: 1 | Não | Número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Luma Ray V2. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Large | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada de solicitações para Converse e InvokeModel |
| Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Mini | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada de solicitações para Converse e InvokeModel |
| Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba Instruct | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba Instruct. A cota considera a soma combinada de solicitações para Converse e InvokeModel |
| Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Mid | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o AI21 Labs Jurassic-2 Mid |
| Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Ultra | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o AI21 Labs Jurassic-2 Ultra |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova 2 Multimodal Embeddings V1 | Cada região compatível: 2.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova 2 Multimodal Embeddings V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova Canvas | Cada região compatível: 100 | Não | Número máximo de solicitações que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Canvas. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova Lite |
us-east-1: 2.000 eu-west-2: 2.000 Cada uma das outras regiões compatíveis: 200 |
Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para a Amazon Nova Micro |
us-east-1: 2.000 eu-west-2: 2.000 Cada uma das outras regiões compatíveis: 200 |
Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Nova Pro | Cada região compatível: 250 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Rerank 1.0 | Cada região compatível: 200 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Amazon Rerank 1.0. |
| Solicitações de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1 | Cada região compatível: 60 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Gerador de Imagens do Amazon Titan G1. |
| Solicitações de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1 V2 | Cada região compatível: 60 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Gerador de Imagens do Amazon Titan G1 V2. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 2.000 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1. |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings | Cada região compatível: 2.000 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Amazon Titan Text Embeddings |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings V2 | Cada região compatível: 6.000 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Amazon Titan Text Embeddings V2 |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Express | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Titan Text Express |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Lite | Cada região compatível: 800 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Titan Text Lite |
| Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Premier | Cada região compatível: 100 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Titan Text Premier |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Haiku |
us-east-1: 1.000 us-west-2: 1.000 ap-northeast-1: 200 ap-southeast-1: 200 Cada uma das outras regiões compatíveis: 400 |
Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Haiku. |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Opus | Cada região compatível: 50 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Sonnet |
us-east-1: 500 us-west-2: 500 Cada uma das outras regiões compatíveis: 100 |
Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Haiku |
us-west-1: 400 Cada uma das outras regiões compatíveis: 1.000 |
Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet |
us-east-1: 50 us-east-2: 50 us-west-2: 250 ap-northeast-2: 50 ap-south-1: 50 ap-southeast-2: 50 Cada uma das outras regiões compatíveis: 20 |
Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet V2 |
us-west-2: 250 Cada uma das outras regiões compatíveis: 50 |
Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.7 Sonnet V1 | Cada região compatível: 125 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude Instant |
us-east-1: 1.000 us-west-2: 1.000 Cada uma das outras regiões compatíveis: 400 |
Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude Instant |
| Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude V2 |
us-east-1: 500 us-west-2: 500 Cada uma das outras regiões compatíveis: 100 |
Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude V2 |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command. |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command Light | Cada região compatível: 800 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command Light. |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command R | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command R 128k. |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command R Plus | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command R Plus 128k. |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Embed English | Cada região compatível: 2.000 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Cohere Embed English. |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Embed Multilingual | Cada região compatível: 2.000 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Cohere Embed Multilingual. |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Embed V4 | Cada região com suporte: 1.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Cohere Rerank 3.5 | Cada região compatível: 250 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Cohere Rerank 3.5. |
| Solicitações de inferência de modelo sob demanda por minuto para o DeepSeek V3 V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o DeepSeek V3 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 13B | Cada região compatível: 800 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 13B. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 70B | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 70B. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 13B | Cada região compatível: 800 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 13B. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 70B | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 70B. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3 70B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3 8B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 200 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 11B Instruct | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada de solicitações para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 800 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 800 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de solicitações para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 90B Instruct | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada de solicitações para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 400 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Mistral 7B Instruct | Cada região compatível: 800 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Mistral mistral-7b-instruct-v0 |
| Solicitações de inferência de modelo sob demanda por minuto para o Mistral AI Mistral Small | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar InvokeModel e InvokeModelWithResponseStream em um minuto para o Mistral AI Mistral Small |
| Solicitações de inferência de modelo sob demanda por minuto para o Mistral Large | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar InvokeModel e InvokeModelWithResponseStream em um minuto para o Mistral mistral-large-2402-v1 |
| Solicitações de inferência de modelo sob demanda por minuto para o Mistral Large 2407 | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada de solicitações para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream |
| Solicitações de inferência de modelo sob demanda por minuto para o Mistral Mixtral 8x7b Instruct | Cada região compatível: 400 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Mistral mixtral-8x7b-v0 |
| Solicitações de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 120B | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 20B | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 235B a22b 2507 V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 235B a22b 2507 V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 32B V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 32B V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 Coder 30B a3b V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 30B a3b V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Qwen3 Coder 480B a35b V1 | Cada região compatível: 10.000 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 480B a35b V1. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion 3 Large | Cada região compatível: 15 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Large. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion 3 Medium | Cada região compatível: 60 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Medium |
| Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion 3.5 Large | Cada região compatível: 15 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3.5 Large. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion XL 0,8 | Cada região compatível: 60 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion XL 0.8 |
| Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Diffusion XL 1.0 | Cada região compatível: 60 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion XL 1.0 |
| Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Image Core | Cada região compatível: 90 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Image Core. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Image Ultra | Cada região com suporte: 10 | Não | Número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Image Ultra. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Conservative Upscale | Cada região compatível: 2 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Conservative Upscale. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Control Sketch | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Sketch. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Control Structure | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Control Structure. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Creative Upscale | Cada região compatível: 2 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Erase Object | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Erase Object. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Fast Upscale | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Creative Upscale. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Inpaint | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Inpaint. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Outpaint | Cada região compatível: 2 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Outpaint. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Remove Background | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Remove Background. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Search e Recolor | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Search e o Recolor. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Search and Replace | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Search and Replace. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Style Guide | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Guide. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Stable Image Style Transfer | Cada região com suporte: 10 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Stable Image Style Transfer. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Twelve Labs Marengo | Cada região compatível: 100 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Marengo. Essa cota representa o número total de solicitações para as ações Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Solicitações de inferência de modelo sob demanda por minuto para o Twelve Labs Pegasus | Cada região compatível: 60 | Não | Número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Large | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse e InvokeModel. |
| Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Mini | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse e InvokeModel. |
| Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba Instruct. A cota considera a soma combinada de tokens para Converse e InvokeModel |
| Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Mid | Cada região compatível: 300.000 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para AI21 Labs Jurassic-2 Mid. |
| Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Ultra | Cada região compatível: 300.000 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o AI21 Labs Jurassic-2 Ultra. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Lite |
us-east-1: 4,000,000 eu-west-2: 4.000.000 Cada uma das outras regiões compatíveis: 200,000 |
Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Micro |
us-east-1: 4,000,000 eu-west-2: 4.000.000 Cada uma das outras regiões compatíveis: 200,000 |
Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Pro | Cada região com suporte: 1.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1 | Cada região compatível: 2.000 | Não | Número máximo de tokens que você pode fornecer por meio do InvokeModel em um minuto para o Gerador de Imagens do Amazon Titan G1. |
| Tokens de inferência de modelo sob demanda por minuto para o Gerador de Imagens do Amazon Titan G1 V2 | Cada região compatível: 2.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Gerador de Imagens do Amazon Titan G1 V2. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode fornecer por meio de InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode fornecer por meio de InvokeModel em um minuto para o Amazon Titan Text Embeddings. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Embeddings V2 | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode fornecer por meio de InvokeModel em um minuto para o Amazon Titan Text Embeddings V2. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Express | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Titan Text Express. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Lite | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Titan Text Lite. |
| Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Premier | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Amazon Titan Text Premier. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Haiku |
us-east-1: 2,000,000 us-west-2: 2,000,000 ap-northeast-1: 200,000 ap-southeast-1: 200,000 Cada uma das outras regiões compatíveis: 300,000 |
Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Haiku. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Opus | Cada região compatível: 400.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Sonnet |
us-east-1: 1,000,000 us-west-2: 1,000,000 Cada uma das outras regiões compatíveis: 200,000 |
Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Haiku |
us-west-1: 300,000 Cada uma das outras regiões compatíveis: 2,000,000 |
Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet |
us-east-1: 400,000 us-east-2: 400,000 us-west-2: 2,000,000 ap-northeast-2: 400,000 ap-south-1: 400,000 ap-southeast-2: 400,000 Cada uma das outras regiões compatíveis: 200,000 |
Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet V2 |
us-west-2: 2,000,000 Cada uma das outras regiões compatíveis: 400,000 |
Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.7 Sonnet V1 | Cada região compatível: 500.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude Instant |
us-east-1: 1,000,000 us-west-2: 1,000,000 Cada uma das outras regiões compatíveis: 300,000 |
Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude Instant. |
| Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude V2 |
us-east-1: 500.000 us-west-2: 500.000 Cada uma das outras regiões compatíveis: 200,000 |
Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude V2. |
| Tokens de inferência de modelo sob demanda por minuto para o Cohere Command | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command. |
| Tokens de inferência de modelo sob demanda por minuto para o Cohere Command Light | Cada região compatível: 300.000 | Não | Número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command Light. |
| Tokens de inferência de modelo sob demanda por minuto para o Cohere Command R | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command R 128k. |
| Tokens de inferência de modelo sob demanda por minuto para o Cohere Command R Plus | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Cohere Command R Plus 128k. |
| Tokens de inferência de modelo sob demanda por minuto para o Cohere Embed English | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode fornecer por meio do InvokeModel em um minuto para o Cohere Embed English. |
| Tokens de inferência de modelo sob demanda por minuto para o Cohere Embed Multilingual | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode fornecer por meio do InvokeModel em um minuto para o Cohere Embed Multilingual. |
| Tokens de inferência de modelo sob demanda por minuto para o Cohere Embed V4 | Cada região compatível: 150.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Cohere Embed V4. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o DeepSeek V3 V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o DeepSeek V3 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 13B | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 13B. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 70B | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 70B. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 13B | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 13B. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 2 Chat 70B | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 70B. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3 70B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3 8B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 400.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 11B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 90B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mistral 7B Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Mistral AI Mistral 7B Instruct. |
| Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mistral Large | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Mistral AI Mistral Large. |
| Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mistral Small | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Mistral AI Mistral Small. |
| Tokens de inferência de modelo sob demanda por minuto para o Mistral AI Mixtral 8X7BB Instruct | Cada região compatível: 300.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para o Mistral AI Mixtral 8X7B Instruct. |
| Tokens de inferência de modelo sob demanda por minuto para o Mistral Large 2407 | Cada região compatível: 300.000 | Não | Número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream |
| Tokens de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 120B | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o OpenAI GPT OSS 20B | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Qwen3 235B a22b 2507 V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 235B a22b 2507 V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Qwen3 32B V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 32B V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Qwen3 Coder 30B a3b V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 30B a3b V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Tokens de inferência de modelo sob demanda por minuto para o Qwen3 Coder 480B a35b V1 | Cada região compatível: 100.000.000 | Não | Número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Qwen3 Coder 480B a35b V1. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream. |
| Parâmetros por função | Cada região compatível: 5 | Sim |
Número máximo de parâmetros que você pode ter em uma função de grupo de ações. |
| Solicitações de PrepareAgent por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API do PrepareAgent por segundo. |
| Registros por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. |
| Registros por trabalho de inferência em lote para o Claude 3 Haiku | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Haiku. |
| Registros por trabalho de inferência em lote para o Claude 3 Opus | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Opus. |
| Registros por trabalho de inferência em lote para o Claude 3 Sonnet | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. |
| Registros por trabalho de inferência em lote para o Claude 3.5 Haiku | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku. |
| Registros por trabalho de inferência em lote para o Claude 3.5 Sonnet | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. |
| Registros por trabalho de inferência em lote para o Claude 3.5 Sonnet v2 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. |
| Registros por trabalho de inferência em lote para o Claude 3.7 Sonnet | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet. |
| Registros por trabalho de inferência em lote para o Claude Sonnet 4 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude Sonnet 4. |
| Registros por trabalho de inferência em lote para o DeepSeek v3 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o DeepSeek v3. |
| Registros por trabalho de inferência em lote para o Llama 3.1 405B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
| Registros por trabalho de inferência em lote para Llama 3.1 70B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
| Registros por trabalho de inferência em lote para o Llama 3.1 8B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
| Registros por trabalho de inferência em lote para a Llama 3.2 11B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
| Registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote Llama 3.2 1B Instruct. |
| Registros por trabalho de inferência em lote para a Llama 3.2 3B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
| Registros por trabalho de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
| Registros por trabalho de inferência em lote para Llama 3.3 70B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
| Registros por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. |
| Registros por trabalho de inferência em lote para o Llama 4 Scout | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout. |
| Registros por trabalho de inferência em lote para o Mistral Large 2 (24.07) | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07). |
| Registros por trabalho de inferência em lote para o Mistral Small | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small. |
| Registros por trabalho de inferência em lote para o Nova Lite V1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1. |
| Registros por trabalho de inferência em lote para a Nova Micro V1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1. |
| Registros por trabalho de inferência em lote para o Nova Pro V1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1. |
| Registros por trabalho de inferência em lote para o OpenAI GPT OSS 120b | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b. |
| Registros por trabalho de inferência em lote para o OpenAI GPT OSS 20b | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b. |
| Registros por trabalho de inferência em lote para o Qwen3 235B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 235B. |
| Registros por trabalho de inferência em lote para o Qwen3 32B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 32B. |
| Registros por trabalho de inferência em lote para o Qwen3 Coder 30B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B. |
| Registros por trabalho de inferência em lote para o Qwen3 Coder 480B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B. |
| Registros por trabalho de inferência em lote para o Titan Multimodal Embeddings G1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
| Registros por trabalho de inferência em lote para o Titan Text Embeddings V2 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Haiku | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Haiku. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Opus | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Opus. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3 Sonnet | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Haiku | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Haiku. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Sonnet | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.5 Sonnet v2 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Claude 3.7 Sonnet | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.7 Sonnet. |
| Registros por arquivo de entrada por trabalho de inferência em lote para Claude Sonnet 4 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude Sonnet 4. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o DeepSeek v3 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o DeepSeek v3. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 405B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 70B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.1 8B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 11B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 1B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 3B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.3 70B Instruct | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 4 Scout | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Scout. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Mistral Large 2 (24.07) | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Mistral Large 2 (24.07). |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Mistral Small | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Mistral Small. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Lite V1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Lite V1. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Micro V1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Micro V1. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Pro V1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Pro V1. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o OpenAI GPT OSS 120b | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 120b. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o OpenAI GPT OSS 20b | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o OpenAI GPT OSS 20b. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 235B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 235B. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 32B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 32B. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder 30B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder 30B. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Qwen3 Coder 480B | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Qwen3 Coder 480B. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Titan Multimodal Embeddings G1 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
| Registros por arquivo de entrada por trabalho de inferência em lote para o Titan Text Embeddings V2 | Cada região compatível: 50.000 | Sim |
Número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Amazon Nova Premier | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Amazon Nova Premier. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Haiku | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Haiku. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Opus | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Opus. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Sonnet | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3 Sonnet. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Haiku | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Haiku. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet v2 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.5 Sonnet v2. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.7 Sonnet | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude 3.7 Sonnet. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude Sonnet 4 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Claude Sonnet 4. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o DeepSeek v3 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o DeepSeek v3. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 405B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 405B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 70B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 70B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 8B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.1 8B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 11B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 11B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 1B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 1B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 3B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 3B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 90B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.2 90B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.3 70B Instruct | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 3.3 70B Instruct. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Maverick | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Maverick. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Scout | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Llama 4 Scout. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Large 2 (24.07) | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Large 2 (24.07). |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Small | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Mistral Small. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Lite V1 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Lite V1. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Micro V1 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Micro V1. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Pro V1 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Nova Pro V1. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 120b | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 120b. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 20b | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o OpenAI GPT OSS 20b. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 235B | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 235B. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 32B | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 32B. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 30B | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 30B. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 480B | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Qwen3 Coder 480B. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Multimodal Embeddings G1 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Multimodal Embeddings G1. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Text Embeddings V2 | Cada região compatível: 20 | Sim |
Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo base para o Titan Text Embeddings V2. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1 | Cada região compatível: 3 | Não | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1. |
| Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Text Embeddings V2 | Cada região compatível: 3 | Não | Número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Text Embeddings V2 |
| Limite da taxa de limitação para o runtime de automação de dados do Bedrock: ListTagsForResource | Cada região compatível: 25 por segundo | Não | Número máximo de solicitações do runtime de automação de dados do Bedrock: ListTagsForResource que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de limitação para o runtime de automação de dados do Bedrock: TagResource | Cada região compatível: 25 por segundo | Não | Número máximo de solicitações do runtime de automação de dados do Bedrock: TagResource que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de limitação para o runtime de automação de dados do Bedrock: UntagResource | Cada região compatível: 25 por segundo | Não | Número máximo de solicitações do runtime de automação de dados do Bedrock: UntagResource que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de limitação para a automação de dados do Bedrock: ListTagsForResource | Cada região compatível: 25 por segundo | Não | Número máximo de solicitações de automação de dados do Bedrock: ListTagsForResource que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de limitação para a automação de dados do Bedrock: TagResource | Cada região compatível: 25 por segundo | Não | Número máximo de solicitações de automação de dados do Bedrock: TagResource que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de limitação para automação de dados do Bedrock: UntagResource | Cada região compatível: 25 por segundo | Não | Número máximo de solicitações de automação de dados do Bedrock: UntagResource que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para CreateBlueprint | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de CreateBlueprint que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para CreateBlueprintVersion | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de CreateBlueprintVersion que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para CreateDataAutomationProject | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de CreateDataAutomationProject que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para DeleteBlueprint | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de DeleteBlueprint que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para DeleteDataAutomationProject | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de DeleteDataAutomationProject que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para GetBlueprint | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de GetBlueprint que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para GetDataAutomationProject | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de GetDataAutomationProject que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para GetDataAutomationStatus | Cada região compatível: 10 por segundo | Não | Número máximo de solicitações de GetDataAutomationStatus que você pode fazer por segundo, por conta, na região atual |
| Limite de taxa de controle de utilização para InvokeDataAutomationAsync | Cada região compatível: 10 por segundo | Não | Número máximo de solicitações de InvokeDataAutomationAsync que você pode fazer por segundo, por conta, na região atual |
| Limite de taxa de controle de utilização para ListBlueprints | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de ListBlueprints que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para ListDataAutomationProjects | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de ListDataAutomationProjects que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para UpdateBlueprint | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações de UpdateBlueprint que você pode fazer por segundo, por conta, na região atual |
| Limite da taxa de controle de utilização para UpdateDataAutomationProject | Cada região compatível: 5 por segundo | Não | Número máximo de solicitações UpdateDataAutomationProject que você pode fazer por segundo, por conta, na região atual |
| Solicitações de UpdateAgent por segundo | Cada região compatível: 4 | Não | Número máximo de solicitações da API do UpdateAgent por segundo. |
| Solicitações de UpdateAgentActionGroup por segundo | Cada região compatível: 6 | Não | Número máximo de solicitações da API UpdateAgentActionGroup por segundo. |
| Solicitações de UpdateAgentAlias por segundo | Cada região compatível: 2 | Não | Número máximo de solicitações da API UpdateAgentAlias por segundo. |
| Solicitações de UpdateAgentKnowledgeBase por segundo | Cada região compatível: 4 | Não | Número máximo de solicitações da API UpdateAgentKnowledgeBase por segundo. |
nota
É possível solicitar um aumento de cotas para sua conta seguindo as etapas abaixo:
-
Se uma cota estiver marcada como Sim, você poderá ajustá-la seguindo as etapas em Solicitar um aumento de cota, no Guia do usuário do Service Quotas.
-
Se uma cota estiver marcada como Não, você poderá enviar uma solicitação por meio do formulário de aumento de limite
para um consideração de aumento. -
Para qualquer modelo, você pode solicitar um aumento para as seguintes cotas juntas:
-
Tokens de InvokeModel entre regiões por minuto para o
${model} -
Solicitações de InvokeModel entre regiões por minuto para o
${model} -
Tokens de InvokeModel sob demanda por minuto para o
${model} -
Solicitações de InvokeModel sob demanda por minuto para o
${model}
Para solicitar um aumento para qualquer combinação dessas cotas, solicite um aumento da cota Tokens de InvokeModel entre regiões por minuto para o
${model}, seguindo as etapas em Solicitar um aumento de cota, no Guia do usuário do Service Quotas. Depois de fazer isso, a equipe de suporte entrará em contato e oferecerá a opção de aumentar também as outras três cotas. Devido à extraordinária demanda, a prioridade será dada aos clientes que geram tráfego que consome sua alocação de cota existente. Sua solicitação poderá ser negada se você não atender a essa condição. -