Ottimizzare l’inferenza del modello per la latenza

Nota

La funzionalità di inferenza ottimizzata per la latenza è in versione di anteprima per Amazon Bedrock ed è soggetta a modifiche.

L’inferenza ottimizzata per la latenza per i modelli di fondazione in Amazon Bedrock consente di ottenere tempi di risposta più rapidi e una maggiore reattività per le applicazioni di IA. Le versioni ottimizzate di Amazon Nova Pro, del modello Claude 3.5 Haiku di Anthropic e dei modelli Llama 3.1 405B e 70B di Meta offrono una latenza ridotta in modo significativo senza compromettere la precisione.

L’accesso alla funzionalità di ottimizzazione della latenza non richiede alcuna configurazione aggiuntiva né alcun fine-tuning del modello e consente il miglioramento immediato delle applicazioni esistenti con tempi di risposta più rapidi. È possibile impostare il parametro “latency” su “optimized” quando si chiama l’API di runtime di Amazon Bedrock. Se si seleziona “standard” come opzione di invocazione, le richieste vengono gestite con inferenza standard. Per impostazione predefinita, il routing delle richieste viene eseguito in modalità “standard”.


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

Una volta raggiunta la quota di utilizzo per l’ottimizzazione della latenza per un modello, tenteremo di soddisfare la richiesta con latenza standard. In questi casi, la richiesta verrà addebitata in base alle tariffe della latenza standard. La configurazione della latenza per una richiesta soddisfatta è visibile nella risposta dell’API e nei log di AWS CloudTrail. È anche possibile visualizzare i parametri per le richieste ottimizzate per la latenza nei log di Amazon CloudWatch alla voce “model-id+latency-optimized”.

L’inferenza ottimizzata per la latenza è disponibile per Llama 3.1 70B e 405B di Meta e per Claude 3.5 Haiku di Anthropic nelle Regioni Stati Uniti orientali (Ohio) e Stati Uniti occidentali (Oregon) tramite l’inferenza tra Regioni.

L’inferenza ottimizzata per la latenza è disponibile per Amazon Nova Pro nelle Regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio) e Stati Uniti occidentali (Oregon) tramite l’inferenza tra Regioni.

Per ulteriori informazioni sui prezzi, consulta la pagina sui prezzi.

Nota

L’inferenza ottimizzata per la latenza per Llama 3.1 405B attualmente supporta richieste con un numero totale di token di input e output fino a 11.000. Per richieste con un numero di token maggiore, si torna alla modalità standard.

Provider	Modello	Regioni che supportano il profilo di inferenza
Amazon	Nova Pro	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	us-east-2
Meta	Llama 3.1 70B Instruct	us-east-2 us-west-2

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Migliorare le risposte del modello con il ragionamento basato su modello

Generare risposte utilizzando l’API