View a markdown version of this page

Livelli di servizio per l'ottimizzazione di prestazioni e costi - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Livelli di servizio per l'ottimizzazione di prestazioni e costi

Amazon Bedrock offre quattro livelli di servizio per l'inferenza dei modelli: Reserved, Priority, Standard e Flex. Con i livelli di servizio, puoi ottimizzare la disponibilità, i costi e le prestazioni.

Livello riservato

Il livello riservato offre la possibilità di riservare capacità di elaborazione prioritaria per le applicazioni mission-critical che non possono tollerare alcun downtime. Hai la flessibilità di allocare diverse tokens-per-minute capacità di input e output per soddisfare i requisiti esatti del tuo carico di lavoro e controllare i costi. Quando l'applicazione richiede una tokens-per-minute capacità superiore a quella prenotata, il servizio passa automaticamente al livello Standard, garantendo operazioni ininterrotte. Il livello riservato prevede un uptime del 99,5% per la risposta dei modelli. I clienti possono prenotare la capacità per 1 o 3 mesi. I clienti pagano un prezzo fisso per 1.000 dollari tokens-per-minute e vengono fatturati mensilmente.

Il livello riservato ha i seguenti requisiti minimi di capacità:

  • Ingresso minimo tokens-per-minute (TPM): 100.000

  • Uscita minima tokens-per-minute (TPM): 10.000

Per accedere al livello riservato, contatta il team del tuo account AWS.

Nota

La fatturazione continua finché non elimini la prenotazione del livello riservato con l'aiuto del tuo Account AWS manager.

Livello prioritario

Il livello Priority offre i tempi di risposta più rapidi a un prezzo superiore rispetto ai prezzi standard on demand. È la soluzione ideale per applicazioni mission critical con flussi di lavoro aziendali rivolti ai clienti che non garantiscono la prenotazione della capacità 24 ore su 24, 7 giorni su 7. Il livello prioritario non richiede la prenotazione preventiva. Puoi semplicemente impostare il parametro opzionale «service_tier» su «priority» per usufruire della prioritizzazione a livello di richiesta. Le richieste di livello prioritario hanno la priorità rispetto alle richieste di livello Standard e Flex.

Livello Standard

Il livello Standard offre prestazioni costanti per le attività di intelligenza artificiale quotidiane come la generazione di contenuti, l'analisi del testo e l'elaborazione di routine dei documenti. Per impostazione predefinita, tutte le richieste di inferenza vengono indirizzate al livello Standard quando manca il parametro «service_tier». Puoi anche impostare il parametro opzionale «service_tier» su «default» per soddisfare la tua richiesta di inferenza con il livello Standard.

Flex Tier

Per i carichi di lavoro in grado di gestire tempi di elaborazione più lunghi, il livello Flex offre un'elaborazione conveniente a un prezzo scontato. Ciò consente di ottimizzare i costi per carichi di lavoro come la valutazione dei modelli, il riepilogo dei contenuti e i flussi di lavoro agentici. Puoi impostare il parametro opzionale «service_tier» su «flex» per far sì che la tua richiesta di inferenza venga soddisfatta con il livello Flex e usufruire dello sconto sui prezzi.

Utilizzo della funzionalità del livello di servizio

Per accedere alla funzionalità del livello di servizio, puoi impostare il parametro opzionale «service_tier» su «reserved», «priority», «default» o «flex» mentre chiami l'API di runtime Amazon Bedrock.

"service_tier" : "reserved | priority | default | flex"

La tua quota su richiesta per un modello è condivisa tra i livelli di servizio «priority», «default» e «flex». La prenotazione della capacità del livello «riservato» è separata dalla quota su richiesta. La configurazione del livello di servizio per una richiesta servita è visibile in API Response e AWS CloudTrail Events. Puoi anche visualizzare i parametri del livello di servizio in Amazon CloudWatch Metrics in ModelId, e ServiceTier ResolvedServiceTier, dove ResolvedServiceTier mostra il livello effettivo che ha soddisfatto le tue richieste.

Per ulteriori informazioni sui prezzi, consulta la pagina sui prezzi.

Vai alla pagina Modelli in sintesi e scegli il modello che ti interessa per vedere quale livello di servizio supporta quel modello.

Per controllare l'accesso ai livelli di servizio, consulta Controlla l'accesso ai livelli di servizio