Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizzare l’inferenza del modello per la latenza
Nota
La funzionalità Latency Optimized Inference è in versione di anteprima Amazon Bedrock ed è soggetta a modifiche.
L'inferenza ottimizzata per la latenza per i modelli di base Amazon Bedrock offre tempi di risposta più rapidi e una migliore reattività per le applicazioni di intelligenza artificiale. Le versioni ottimizzate di Amazon Nova Pro, del modello Claude 3.5 Haiku di Anthropic
L’accesso alla funzionalità di ottimizzazione della latenza non richiede alcuna configurazione aggiuntiva né alcun fine-tuning del modello e consente il miglioramento immediato delle applicazioni esistenti con tempi di risposta più rapidi. È possibile impostare il parametro “latency” su “optimized” quando si chiama l’API di runtime di Amazon Bedrock. Se si seleziona “standard” come opzione di invocazione, le richieste vengono gestite con inferenza standard. Per impostazione predefinita, il routing delle richieste viene eseguito in modalità “standard”.
"performanceConfig" : { "latency" : "standard | optimized" }
Una volta raggiunta la quota di utilizzo per l’ottimizzazione della latenza per un modello, tenteremo di soddisfare la richiesta con latenza standard. In questi casi, la richiesta verrà addebitata in base alle tariffe della latenza standard. La configurazione della latenza per una richiesta servita è visibile nella risposta e nei log delle API. AWS CloudTrail Puoi anche visualizzare le metriche per le richieste ottimizzate per la latenza nei Amazon CloudWatch log alla voce «model-id+latency-optimized».
L’inferenza ottimizzata per la latenza è disponibile per Llama 3.1 70B e 405B di Meta e per Claude 3.5 Haiku di Anthropic nelle Regioni Stati Uniti orientali (Ohio) e Stati Uniti occidentali (Oregon) tramite l’inferenza tra Regioni.
L’inferenza ottimizzata per la latenza è disponibile per Amazon Nova Pro nelle Regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio) e Stati Uniti occidentali (Oregon) tramite l’inferenza tra Regioni.
Per ulteriori informazioni sui prezzi, consulta la pagina sui prezzi
Nota
L’inferenza ottimizzata per la latenza per Llama 3.1 405B attualmente supporta richieste con un numero totale di token di input e output fino a 11.000. Per richieste con un numero di token maggiore, si torna alla modalità standard.
La tabella seguente mostra i profili di inferenza che supportano l'ottimizzazione della latenza:
| Provider | Modello | ID modello | Supporto per profili di inferenza tra regioni |
|---|---|---|---|
| Amazon | Nova Pro | amazon. nova-pro-v1:0 |
us-east-1 us-east-2 |
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |
us-east-2 us-west-2 |
| Meta | Llama 3.1 405B Instruct | b-instruct-vmeta.llama3-1-405 1:0 |
us-east-2 |
| Meta | Llama 3.1 70B Instruct | b-instruct-vmeta.llama3-1-70 1:0 |
us-east-2 us-west-2 |
Per ulteriori informazioni sui profili di inferenza, vedere. Regioni e modelli supportati per i profili di inferenza