Ottimizzare l’inferenza del modello per la latenza
Nota
La funzionalità di inferenza ottimizzata per la latenza è in versione di anteprima per Amazon Bedrock ed è soggetta a modifiche.
L’inferenza ottimizzata per la latenza per i modelli di fondazione in Amazon Bedrock consente di ottenere tempi di risposta più rapidi e una maggiore reattività per le applicazioni di IA. Le versioni ottimizzate di Amazon Nova Pro, del modello Claude 3.5 Haiku di Anthropic
L’accesso alla funzionalità di ottimizzazione della latenza non richiede alcuna configurazione aggiuntiva né alcun fine-tuning del modello e consente il miglioramento immediato delle applicazioni esistenti con tempi di risposta più rapidi. È possibile impostare il parametro “latency” su “optimized” quando si chiama l’API di runtime di Amazon Bedrock. Se si seleziona “standard” come opzione di invocazione, le richieste vengono gestite con inferenza standard. Per impostazione predefinita, il routing delle richieste viene eseguito in modalità “standard”.
"performanceConfig" : { "latency" : "standard | optimized" }
Una volta raggiunta la quota di utilizzo per l’ottimizzazione della latenza per un modello, tenteremo di soddisfare la richiesta con latenza standard. In questi casi, la richiesta verrà addebitata in base alle tariffe della latenza standard. La configurazione della latenza per una richiesta soddisfatta è visibile nella risposta dell’API e nei log di AWS CloudTrail. È anche possibile visualizzare i parametri per le richieste ottimizzate per la latenza nei log di Amazon CloudWatch alla voce “model-id+latency-optimized”.
L’inferenza ottimizzata per la latenza è disponibile per Llama 3.1 70B e 405B di Meta e per Claude 3.5 Haiku di Anthropic nelle Regioni Stati Uniti orientali (Ohio) e Stati Uniti occidentali (Oregon) tramite l’inferenza tra Regioni.
L’inferenza ottimizzata per la latenza è disponibile per Amazon Nova Pro nelle Regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio) e Stati Uniti occidentali (Oregon) tramite l’inferenza tra Regioni.
Per ulteriori informazioni sui prezzi, consulta la pagina sui prezzi
Nota
L’inferenza ottimizzata per la latenza per Llama 3.1 405B attualmente supporta richieste con un numero totale di token di input e output fino a 11.000. Per richieste con un numero di token maggiore, si torna alla modalità standard.
| Provider | Modello | Regioni che supportano il profilo di inferenza |
|---|---|---|
| Amazon | Nova Pro |
us-east-1 us-east-2 |
| Anthropic | Claude 3.5 Haiku |
us-east-2 us-west-2 |
| Meta | Llama 3.1 405B Instruct |
us-east-2 |
| Meta | Llama 3.1 70B Instruct |
us-east-2 us-west-2 |