Tipi di quote Come vengono valutate le richieste rispetto alle quote Valori di quota predefiniti Regioni supportate Richiedere un aumento della quota Differenze rispetto alle quote base di runtime

Quote per l'endpoint del substrato roccioso

L'bedrock-mantle.region.api.awsendpoint serve l'API OpenAI Responses, l'API OpenAI Chat Completions e l'API Anthropic Messages. Il traffico di inferenza verso questo endpoint è regolato da un set di quote separato dall'endpoint. bedrock-runtime

Puoi visualizzare le bedrock-mantle quote nella console Service Quotas selezionando Amazon Bedrock come servizio e cercando Bedrock Mantle. Per richiedere un aumento di una qualsiasi di queste quote, consulta. Richiedere un aumento della quota

Tipi di quote

L'inferenza sull'bedrock-mantleendpoint è regolata da due quote per modello:

quote bedrock-mantle per modello
Quota	Scope	Description
Bedrock Mantle input token al minuto per `${model}`	Per modello, per regione	Il numero massimo di token di input al minuto che il tuo account può inviare al modello sull'`bedrock-mantle`endpoint. Condiviso tra tutte le API servite dall'endpoint per quel modello.
Bedrock Mantle emette token al minuto per `${model}`	Per modello, per regione	Il numero massimo di token di output al minuto che il modello può generare per il tuo account sull'`bedrock-mantle`endpoint. Condiviso tra tutte le API servite dall'endpoint per quel modello.

Nota

I token di input memorizzati nella cache letti tramite prompt caching non vengono conteggiati ai fini della quota di token di input al minuto.

Nota

L'endpoint non impone quote di richieste al minuto (RPM). bedrock-mantle La limitazione è regolata esclusivamente dalle quote dei token di input e output descritte in questa sezione.

Come vengono valutate le richieste rispetto alle quote

Quando invii una richiesta di inferenza all'bedrock-mantleendpoint, la AWS valuta rispetto alle tue quote nell'ordine seguente:

Token di input al minuto: il numero di token di input nella richiesta, più il valore di max_tokens (o il massimo specifico del modello se non max_tokens è impostato), viene confrontato con la quota di token di input al minuto per il modello richiesto. Se l'ammissione della richiesta supererebbe la quota, la richiesta viene limitata da una risposta HTTP 429.
Token di output al minuto: mentre il modello trasmette o genera output, i token di output vengono conteggiati sulla quota di token di output al minuto per quel modello. Se la quota viene raggiunta durante la generazione, la generazione si interrompe e la risposta viene restituita con un motivo di fine che indica il limite.

Una volta completata la risposta, qualsiasi parte inutilizzata della prenotazione iniziale del token di input (la differenza tra max_tokens e l'output effettivo) viene reintegrata nella quota specificata.

L'endpoint può applicare limiti di velocità interni aggiuntivi che non sono esposti in Service Quotas. Utilizza la logica di riprova con backoff esponenziale per gestire la limitazione transitoria.

Le quote TPM dell'bedrock-runtimeendpoint contano i token di input e output insieme rispetto a un'unica quota per modello, mentre l'endpoint applica quote separate per token di input per minuto e token di output per minuto. bedrock-mantle Se esegui carichi di lavoro su entrambi gli endpoint, pianifica la capacità per ciascun endpoint in modo indipendente. Per i dettagli sulle quote dell'endpoint di runtime, consulta. Quote per l'endpoint bedrock-runtime

Valori di quota predefiniti

La tabella seguente elenca le quote predefinite per i modelli sull'bedrock-mantleendpoint. I nuovi Account AWS potrebbero ricevere quote ridotte e le quote possono variare in base alla regione.

Quote di base predefinite per modello
Modello	TPM di input predefinito	TPM di uscita predefinito
AnthropicClaude Opus 4.7	20.000.000	4.000.000

I modelli aggiuntivi verranno elencati in questa tabella non appena verranno avviati sull'endpoint.

Modelli senza quote TPM pubblicate

L'bedrock-mantleendpoint applica le quote TPM pubblicate solo per i modelli elencati nella tabella precedente. Altri modelli utilizzati su questo endpoint non hanno quote TPM per account esposte oggi in Service Quotas: la loro velocità effettiva è regolata dalla capacità del servizio interno. AWS potrebbe introdurre quote per account per modelli aggiuntivi come scale di utilizzo. Usa la logica di riprova con backoff esponenziale per gestire la limitazione transitoria. Se hai bisogno di una quota pubblicata per un modello specifico, contatta l' AWS assistenza.

Regioni supportate

bedrock-mantlele quote sono visibili in Service Quotas nelle AWS stesse regioni in cui è disponibile bedrock-mantle l'endpoint. Per l'elenco completo delle regioni e degli URL degli endpoint, consulta. Regioni ed endpoint supportati

Richiedere un aumento della quota

Le bedrock-mantle quote sono visibili in Service Quotas, ma le richieste di aumento delle quote non vengono attualmente elaborate tramite la console Service Quotas. Per richiedere un aumento, invia una richiesta tramite il modulo di aumento del limite di AWS supporto e seleziona Amazon Bedrock come servizio. Nella richiesta, specifica:

L'endpoint (bedrock-mantle).
La Regione .
Il modello.
Il nome della quota (TPM di input o TPM di output) e il valore richiesto.

Puoi richiedere aumenti dei token di input al minuto e dei token di output al minuto per lo stesso modello in un unico caso di supporto. L'approvazione dipende dal fatto che l'utilizzo esistente giustifichi l'aumento, quindi includi nella richiesta le informazioni sull'utilizzo recente fornite dalla console Service Quotas CloudWatch o dalla console Service Quotas.

Differenze rispetto alle quote base di runtime

Le bedrock-mantle quote sono indipendenti dalle quote. bedrock-runtime Traffico verso bedrock-runtime.region.amazonaws.com e traffico destinato a bedrock-mantle.region.api.aws consumare allocazioni di quote separate, anche quando si chiama lo stesso modello sottostante.

Le quote personalizzate del profilo di inferenza, le quote di inferenza in batch e le allocazioni Provisioned Throughput si applicano solo all'endpoint e non sono esposte sull'bedrock-runtimeendpoint. bedrock-mantle

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

quote di base in fase di esecuzione

Richiesta di un aumento della quota