Livello riservato Livello prioritario Livello Standard Flex Tier Utilizzo della funzionalità del livello di servizio

Livelli di servizio per l'ottimizzazione delle prestazioni e dei costi

Amazon Bedrock offre quattro livelli di servizio per l'inferenza dei modelli: Reserved, Priority, Standard e Flex. Con i livelli di servizio, puoi ottimizzare la disponibilità, i costi e le prestazioni.

Livello riservato

Il livello riservato offre la possibilità di riservare capacità di elaborazione prioritaria per le applicazioni mission-critical che non possono tollerare alcun downtime. Hai la flessibilità di allocare diverse capacità di token di input e output al minuto per soddisfare i requisiti esatti del tuo carico di lavoro e controllare i costi. Quando l'applicazione richiede una capacità di token al minuto superiore a quella riservata, il servizio passa automaticamente al livello Standard, garantendo operazioni ininterrotte. Il livello riservato prevede un uptime del 99,5% per la risposta del modello. I clienti possono prenotare la capacità per 1 o 3 mesi. I clienti pagano un prezzo fisso per 1.000 token al minuto e vengono fatturati mensilmente.

Il livello Riservato ha i seguenti requisiti minimi di capacità:

Numero minimo di token di input al minuto (TPM): 100.000
Token di output minimi al minuto (TPM): 10.000

Per accedere al livello riservato, contatta il team del tuo account AWS.

Importante

Nel dimensionare la capacità del livello riservato, tieni presente che il consumo di token al minuto include sia che. InputTokenCount CacheWriteInputTokens Se utilizzi il prompt caching, devi sommare entrambe le metriche in Amazon CloudWatch per stimare con precisione la prenotazione richiesta. Per ulteriori informazioni su come i token vengono conteggiati ai fini della quota, consulta. Comprendere la gestione delle quote di token

Nota

La fatturazione continua fino a quando non elimini la prenotazione del livello riservato con l'aiuto del tuo Account AWS manager.

Livello prioritario

Il livello Priority offre i tempi di risposta più rapidi a un prezzo superiore rispetto ai prezzi standard on demand. È la soluzione ideale per applicazioni mission critical con flussi di lavoro aziendali rivolti ai clienti che non garantiscono la prenotazione della capacità 24 ore su 24, 7 giorni su 7. Il livello prioritario non richiede la prenotazione preventiva. Puoi semplicemente impostare il parametro opzionale «service_tier» su «priority» per usufruire della prioritizzazione a livello di richiesta. Le richieste di livello prioritario hanno la priorità rispetto alle richieste di livello Standard e Flex.

Livello Standard

Il livello Standard offre prestazioni costanti per le attività di intelligenza artificiale quotidiane come la generazione di contenuti, l'analisi del testo e l'elaborazione di routine dei documenti. Per impostazione predefinita, tutte le richieste di inferenza vengono indirizzate al livello Standard quando manca il parametro «service_tier». Puoi anche impostare il parametro opzionale «service_tier» su «default» per soddisfare la tua richiesta di inferenza con il livello Standard.

Flex Tier

Per i carichi di lavoro in grado di gestire tempi di elaborazione più lunghi, il livello Flex offre un'elaborazione conveniente a un prezzo scontato. Ciò consente di ottimizzare i costi per carichi di lavoro come la valutazione dei modelli, il riepilogo dei contenuti e i flussi di lavoro agentici. Puoi impostare il parametro opzionale «service_tier» su «flex» per far sì che la tua richiesta di inferenza venga soddisfatta con il livello Flex e usufruire dello sconto sui prezzi.

Utilizzo della funzionalità del livello di servizio

Per accedere alla funzionalità del livello di servizio, puoi impostare il parametro opzionale «service_tier» su «reserved», «priority», «default» o «flex» mentre chiami l'API di runtime Amazon Bedrock.


"service_tier" : "reserved | priority | default | flex"

La tua quota su richiesta per un modello è condivisa tra i livelli di servizio «priority», «default» e «flex». La prenotazione della capacità del livello «riservato» è separata dalla quota su richiesta. La configurazione del livello di servizio per una richiesta servita è visibile in API Response e AWS CloudTrail Events. Puoi anche visualizzare i parametri del livello di servizio in Amazon CloudWatch Metrics in ModelId, e ServiceTier ResolvedServiceTier, dove ResolvedServiceTier mostra il livello effettivo che ha soddisfatto le tue richieste.

Per ulteriori informazioni sui prezzi, consulta la pagina sui prezzi.

Vai alla pagina Modelli in sintesi e scegli il modello che ti interessa per vedere quale livello di servizio supporta quel modello.

Per controllare l'accesso ai livelli di servizio, consulta Controlla l'accesso ai livelli di servizio

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Capacità e prestazioni

Inferenza in batch