Quote per Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Quote per Amazon Bedrock

Hai Account AWS delle quote predefinite, precedentemente denominate limiti, per Amazon Bedrock. Per visualizzare le quote di servizio per Amazon Bedrock, esegui una delle seguenti operazioni:

Per mantenere le prestazioni del servizio e garantire un uso appropriato di Amazon Bedrock, le quote predefinite assegnate a un account potrebbero essere aggiornate in base a fattori regionali, alla cronologia dei pagamenti, all'utilizzo fraudolento, all' and/or approvazione di una richiesta di aumento delle quote.

Nota

Per mantenere le prestazioni e garantire un uso appropriato di Amazon Bedrock, AWS limita l'utilizzo in base alle quote del tuo account per richieste al minuto (RPM), token al minuto (TPM) e token al giorno (TPD). Il limite predefinito di token al giorno è di Token al minuto* 24 * 60. Tuttavia, i nuovi Account AWS hanno quote ridotte per i token al giorno. Puoi richiedere un aumento della quota come descritto nella sezione seguente.

Per visualizzare i limiti di token al giorno del tuo account, seleziona Amazon Bedrock nella pagina Service AWS Management Console Quotas e cerca «Model invocation max tokens al giorno per $ {MODEL}».

Richiedi un aumento delle quote di Amazon Bedrock

I passaggi per richiedere un aumento della quota per il tuo account dipendono dal valore nella colonna Regolabile nella tabella delle quote nelle quote dei servizi Amazon Bedrock:

  • Se una quota è contrassegnata come , puoi modificarla seguendo i passaggi riportati nella sezione Richiedere un aumento della quota nella Guida per l'utente di Service Quotas.

  • Per qualsiasi modello, puoi richiedere contemporaneamente un aumento per le seguenti quote:

    • InvokeModel Token interregionali al minuto per ${model}

    • InvokeModel Richieste interregionali al minuto per ${model}

    • InvokeModel Token al minuto su richiesta per ${model}

    • Richieste su InvokeModel richiesta al minuto per ${model}

    • Richiamata del modello (numero massimo di token al giorno) per ${model}

    Per richiedere un aumento per qualsiasi combinazione di queste quote, richiedi un aumento dei InvokeModel token interregionali al minuto per ${model} quota seguendo i passaggi riportati in Richiesta di aumento della quota nella Guida per l'utente delle quote di servizio. Dopo averlo fatto, il team di supporto ti contatterà e ti offrirà la possibilità di aumentare anche le altre quattro quote.

    Nota

    A causa dell'enorme domanda, verrà data priorità ai clienti che generano traffico che utilizza le quote assegnate esistenti. La tua richiesta potrebbe essere rifiutata se non soddisfi questa condizione.

Tasso di esaurimento dei token per 4 modelli AnthropicClaude

Quote di inferenza per modelli con tassi di burndown dei token non standard.

Le quote di inferenza del modello Amazon Bedrock vengono misurate in due dimensioni: RPM (richieste al minuto) e TPM (token al minuto). Le quote possono essere raggiunte in qualsiasi dimensione a seconda di ciò che si verifica per primo.

Un burndown rate è un rapporto che converte i token di input e output in un utilizzo delle quote di token da parte del sistema di throttling. Questo rapporto rappresenta la velocità con cui i token di input e output vengono conteggiati ai fini delle quote dei token.

La maggior parte dei modelli ha una frequenza di esaurimento di 1 token per 1 token di ingresso o 1 token di uscita, ad eccezione di 4 modelli. Anthropic Claude Consulta le tabelle seguenti per Anthropic Claude 4 tassi di burndown. Per ulteriori informazioni sull'uso e sui prezzi dei token in Amazon Bedrock, consulta la pagina dei prezzi di Amazon Bedrock.

Quando riceviamo la tua richiesta, utilizziamo il max_tokens valore specificato nella richiesta API per stimare la riduzione dell'output in termini di quote di token. Adattiamo il burndown dell'output all'utilizzo effettivo al completamento della richiesta. Per evitare una limitazione precoce, seleziona un max_tokens valore vicino ai token di output previsti.

Tassi di burndown non standard del token modello

Modello

Token di input

Token di uscita

Claude Opus 4

1 token per token di input

5 token per token di output

Claude Sonnet 4

1 token per token di input

5 token per token di output