As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Cotas do Amazon Bedrock
Você Conta da AWS tem cotas padrão, anteriormente chamadas de limites, para o Amazon Bedrock. Para visualizar as cotas de serviço do Amazon Bedrock, execute um dos seguintes procedimentos:
-
Siga as etapas em Visualizar cotas de serviço e selecione Amazon Bedrock como o serviço.
-
Consulte as cotas do serviço Amazon Bedrock no. Referência geral da AWS
Para manter o desempenho do serviço e garantir o uso adequado do Amazon Bedrock, as cotas padrão atribuídas a uma conta podem ser atualizadas dependendo de fatores regionais, histórico de pagamentos, uso fraudulento e and/or aprovação de uma solicitação de aumento de cota.
nota
Para manter o desempenho e garantir o uso adequado do Amazon Bedrock, AWS limite seu uso de acordo com as cotas de sua conta para solicitações por minuto (RPM), tokens por minuto (TPM) e tokens por dia (TPD) da sua conta. O limite padrão de Tokens por Dia é Tokens por Minuto * 24 * 60. No entanto, novos Contas da AWS reduziram as cotas de Tokens por Dia. Você pode solicitar um aumento de cota conforme descrito na seção a seguir.
Para ver os limites de tokens por dia da sua conta, selecione Amazon Bedrock na página de Cotas de AWS Management Console Serviço
Tópicos
Solicitar um aumento das cotas do Amazon Bedrock
As etapas para solicitar um aumento de cota para sua conta dependem do valor na coluna Ajustável na tabela de cotas nas cotas do serviço Amazon Bedrock:
-
Se uma cota estiver marcada como Sim, você poderá ajustá-la seguindo as etapas em Solicitando um aumento de cota no Guia do Usuário de Quotas de Serviço.
-
Para qualquer modelo, você pode solicitar um aumento para as seguintes cotas em conjunto:
-
InvokeModel Tokens entre regiões por minuto para
${model}
-
InvokeModel Solicitações entre regiões por minuto para
${model}
-
InvokeModel Tokens sob demanda por minuto para
${model}
-
InvokeModel Solicitações sob demanda por minuto para
${model}
-
Número máximo de tokens de invocação do modelo por dia para
${model}
Para solicitar um aumento para qualquer combinação dessas cotas, solicite um aumento para os InvokeModel tokens entre regiões por minuto para a
${model}
cota seguindo as etapas em Solicitando um aumento de cota no Guia do usuário de cotas de serviço. Depois de fazer isso, a equipe de suporte entrará em contato e oferecerá a opção de também aumentar as outras quatro cotas.nota
Devido à extraordinária demanda, a prioridade será dada aos clientes que geram tráfego que consome sua alocação de cota existente. Sua solicitação poderá ser negada se você não atender a essa condição.
-
Taxa de queima de tokens para 4 modelos AnthropicClaude
Cotas de inferência para modelos com taxas de queima de tokens não padrão.
As cotas de inferência do modelo Amazon Bedrock são medidas em duas dimensões: RPM (solicitações por minuto) e TPM (tokens por minuto). As cotas podem ser atingidas em qualquer uma das dimensões, dependendo do que ocorre primeiro.
Uma taxa de burndown é uma taxa que converte os tokens de entrada e saída no uso da cota de tokens pelo sistema de limitação. Essa proporção representa a taxa na qual os tokens de entrada e saída contam para as cotas de tokens.
A maioria dos modelos tem uma taxa de queima de 1 token por 1 token de entrada ou 1 token de saída, exceto para Anthropic Claude 4 modelos. Veja as tabelas abaixo para ver Anthropic Claude 4 taxas de burndown. Para obter mais informações sobre o uso e preços de tokens no Amazon Bedrock, consulte Preços do Amazon Bedrock
Usamos o max_tokens
valor especificado na solicitação da API para estimar a redução da saída em relação às cotas de token quando recebemos sua solicitação. Ajustamos o burndown de saída ao uso real na conclusão da solicitação. Para evitar a limitação precoce, selecione um max_tokens
valor próximo aos tokens de saída esperados.
Modelo |
Token de entrada |
Token de saída |
---|---|---|
Claude Opus 4 |
1 token por token de entrada |
5 tokens por token de saída |
Claude Sonnet 4 |
1 token por token de entrada |
5 tokens por token de saída |