

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Livelli di servizio per l'ottimizzazione delle prestazioni e dei costi
<a name="service-tiers-inference"></a>

Amazon Bedrock offre quattro livelli di servizio per l'inferenza dei modelli: Reserved, Priority, Standard e Flex. Con i livelli di servizio, puoi ottimizzare la disponibilità, i costi e le prestazioni.

## Livello riservato
<a name="w2aac28b5b5"></a>

Il livello riservato offre la possibilità di riservare capacità di elaborazione prioritaria per le applicazioni mission-critical che non possono tollerare alcun downtime. Hai la flessibilità di allocare diverse capacità di token di input e output al minuto per soddisfare i requisiti esatti del tuo carico di lavoro e controllare i costi. Quando l'applicazione richiede una capacità di token al minuto superiore a quella riservata, il servizio passa automaticamente al livello Standard, garantendo operazioni ininterrotte. Il livello riservato prevede un uptime del 99,5% per la risposta del modello. I clienti possono prenotare la capacità per 1 o 3 mesi. I clienti pagano un prezzo fisso per 1.000 token al minuto e vengono fatturati mensilmente.

Il livello Riservato ha i seguenti requisiti minimi di capacità:
+ **Numero minimo di token di input al minuto (TPM**): 100.000
+ **Token di output minimi al minuto** (TPM): 10.000

Per accedere al livello riservato, contatta il team del tuo account AWS.

**Importante**  
Nel dimensionare la capacità del livello riservato, tieni presente che il consumo di token al minuto include sia che. `InputTokenCount` `CacheWriteInputTokens` Se utilizzi il [prompt caching](prompt-caching.md), devi sommare entrambe le metriche in Amazon CloudWatch per stimare con precisione la prenotazione richiesta. Per ulteriori informazioni su come i token vengono conteggiati ai fini della quota, consulta. [Comprendere la gestione delle quote di token](quotas-token-burndown.md#quotas-token-burndown-management)

**Nota**  
La fatturazione continua fino a quando non elimini la prenotazione del livello riservato con l'aiuto del tuo Account AWS manager.

## Livello prioritario
<a name="w2aac28b5b7"></a>

Il livello Priority offre i tempi di risposta più rapidi a un prezzo superiore rispetto ai prezzi standard on demand. È la soluzione ideale per applicazioni mission critical con flussi di lavoro aziendali rivolti ai clienti che non garantiscono la prenotazione della capacità 24 ore su 24, 7 giorni su 7. Il livello prioritario non richiede la prenotazione preventiva. Puoi semplicemente impostare il parametro opzionale «service\_tier» su «priority» per usufruire della prioritizzazione a livello di richiesta. Le richieste di livello prioritario hanno la priorità rispetto alle richieste di livello Standard e Flex.

## Livello Standard
<a name="w2aac28b5b9"></a>

Il livello Standard offre prestazioni costanti per le attività di intelligenza artificiale quotidiane come la generazione di contenuti, l'analisi del testo e l'elaborazione di routine dei documenti. Per impostazione predefinita, tutte le richieste di inferenza vengono indirizzate al livello Standard quando manca il parametro «service\_tier». Puoi anche impostare il parametro opzionale «service\_tier» su «default» per soddisfare la tua richiesta di inferenza con il livello Standard.

## Flex Tier
<a name="w2aac28b5c11"></a>

Per i carichi di lavoro in grado di gestire tempi di elaborazione più lunghi, il livello Flex offre un'elaborazione conveniente a un prezzo scontato. Ciò consente di ottimizzare i costi per carichi di lavoro come la valutazione dei modelli, il riepilogo dei contenuti e i flussi di lavoro agentici. Puoi impostare il parametro opzionale «service\_tier» su «flex» per far sì che la tua richiesta di inferenza venga soddisfatta con il livello Flex e usufruire dello sconto sui prezzi.

## Utilizzo della funzionalità del livello di servizio
<a name="w2aac28b5c13"></a>

Per accedere alla funzionalità del livello di servizio, puoi impostare il parametro opzionale «service\_tier» su «reserved», «priority», «default» o «flex» mentre chiami l'API di runtime Amazon Bedrock.

```
"service_tier" : "reserved | priority | default | flex"
```

La tua quota su richiesta per un modello è condivisa tra i livelli di servizio «priority», «default» e «flex». La prenotazione della capacità del livello «riservato» è separata dalla quota su richiesta. La configurazione del livello di servizio per una richiesta servita è visibile in API Response e AWS CloudTrail Events. Puoi anche visualizzare i parametri del livello di servizio in Amazon CloudWatch Metrics in ModelId, e ServiceTier ResolvedServiceTier, dove ResolvedServiceTier mostra il livello effettivo che ha soddisfatto le tue richieste.

Per ulteriori informazioni sui prezzi, consulta la [pagina sui prezzi](https://aws.amazon.com/bedrock/pricing/).

Vai alla pagina [Modelli in sintesi](model-cards.md) e scegli il modello che ti interessa per vedere quale livello di servizio supporta quel modello.

Per controllare l'accesso ai livelli di servizio, consulta [Controlla l'accesso ai livelli di servizio](security_iam_id-based-policy-examples-agent.md#security_iam_id-based-policy-examples-service-tiers)