Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizza l'inferenza del modello per la latenza
Nota
La funzionalità Latency Optimized Inference è in versione di anteprima Amazon Bedrock ed è soggetta a modifiche.
L'inferenza ottimizzata per la latenza per i modelli di base Amazon Bedrock offre tempi di risposta più rapidi e una migliore reattività per le applicazioni di intelligenza artificiale. Le versioni ottimizzate del Amazon Nova Promodello Claude 3.5 Haiku di Anthropic e dei modelli Llama 3.1 405B e 70B
L'accesso alla funzionalità di ottimizzazione della latenza non richiede alcuna configurazione aggiuntiva o messa a punto del modello, e consente il miglioramento immediato delle applicazioni esistenti con tempi di risposta più rapidi. Puoi impostare il parametro «Latency» su «optimized» mentre chiami l'API di runtime Amazon Bedrock. Se selezioni «standard» come opzione di invocazione, le tue richieste verranno servite tramite inferenza standard. Per impostazione predefinita, tutte le richieste vengono indirizzate tramite «standard».
"performanceConfig" : { "latency" : "standard | optimized" }
Una volta raggiunta la quota di utilizzo per l'ottimizzazione della latenza per un modello, tenteremo di soddisfare la richiesta con latenza standard. In questi casi, la richiesta verrà addebitata in base alle tariffe di latenza Standard. La configurazione della latenza per una richiesta servita è visibile nella risposta e AWS CloudTrail nei log dell'API. Puoi anche visualizzare le metriche per le richieste ottimizzate per la latenza nei Amazon CloudWatch log alla voce «model-id+latency-optimized».
Per ulteriori informazioni sui prezzi, visita la pagina dei prezzi.
Nota
L'inferenza ottimizzata per la latenza per Llama 3.1 405B attualmente supporta richieste con un numero totale di token di input e output fino a 11K. Per richieste con un numero maggiore di token, torneremo alla modalità standard.
Provider | Modello | Regioni che supportano il profilo di inferenza |
---|---|---|
Amazon | Nova Pro |
us-east-1 us-east-2 |
Anthropic | Claude 3.5 Haiku |
us-east-2 us-west-2 |
Meta | Llama 3.1 405B Instruct |
us-east-2 |
Meta | Llama 3.1 70B Instruct |
us-east-2 us-west-2 |