Aumentare il throughput con l’inferenza tra Regioni - Amazon Bedrock

Aumentare il throughput con l’inferenza tra Regioni

L’inferenza tra Regioni consente di scegliere un profilo di inferenza tra Regioni legato a un’area geografica specifica (come Stati Uniti o UE) oppure un profilo di inferenza globale. Quando si sceglie un profilo di inferenza legato a un’area geografica specifica, Amazon Bedrock seleziona automaticamente la Regione AWS commerciale ottimale in tale area geografica per elaborare la richiesta di inferenza. Con i profili di inferenza globali, Amazon Bedrock seleziona automaticamente la Regione AWS commerciale migliore per elaborare la richiesta, ottimizzando le risorse disponibili e aumentando il throughput del modello.

Quando si esegui l’inferenza del modello in modalità on demand, le richieste potrebbero essere limitate dalle quote di servizio o durante i periodi di picco di utilizzo. L’inferenza tra Regioni consente di gestire facilmente picchi di traffico non pianificati utilizzando risorse di calcolo tra diverse Regioni AWS. Con l’inferenza tra Regioni è possibile distribuire il traffico tra più Regioni AWS, aumentando il throughput.

Per aumentare il throughput per un modello, è possibile acquistare Throughput allocato. I profili di inferenza attualmente non supportano throughput allocato.

Per visualizzare le Regioni e i modelli con cui è possibile utilizzare i profili di inferenza per eseguire l’inferenza tra Regioni, consulta Regioni e modelli supportati per i profili di inferenza.

I profili di inferenza tra Regioni (definiti dal sistema) prendono il nome dal modello che supportano e sono definiti dalle Regioni che supportano. Per informazioni sul modo in cui un profilo di inferenza tra Regioni gestisce le richieste, leggi le definizioni seguenti:

  • Regione di origine: Regione da cui effettui la richiesta API che specifica il profilo di inferenza.

  • Regione di destinazione: Regione in cui il servizio Amazon Bedrock può instradare la richiesta dalla Regione di origine.

Quando si invoca un profilo di inferenza tra Regioni in Amazon Bedrock, la richiesta proviene da una Regione di origine e viene automaticamente instradata a una delle Regioni di destinazione definite nel profilo, ottimizzando le prestazioni. Le Regioni di destinazione per i profili di inferenza tra Regioni globali includono tutte le Regioni commerciali.

Nota

Le Regioni di destinazione in un profilo di inferenza tra Regioni possono includere Regioni su adesione, ovvero le Regioni che devi abilitare in modo esplicito a livello di Account AWS o di organizzazione. Per ulteriori informazioni, consulta Abilitare o disabilitare le Regioni AWS nell’account. Quando utilizzi un profilo di inferenza tra Regioni, la richiesta di inferenza può essere instradata a una qualsiasi delle Regioni di destinazione nel profilo, anche se non hai aderito a tali Regioni nell’account.

Le policy di controllo dei servizi e le policy AWS Identity and Access Management (IAM) operano insieme per controllare dove consentire l’inferenza tra Regioni. Utilizzando policy di controllo dei servizi, puoi controllare quali Regioni può utilizzare Amazon Bedrock per l’inferenza, mentre attraverso policy IAM puoi definire quali utenti o ruoli sono autorizzati a eseguire l’inferenza. Se una Regione di destinazione in un profilo di inferenza tra Regioni è bloccata nelle policy di controllo dei servizi, la richiesta avrà esito negativo anche se le altre Regioni restano consentite. Per assicurare il funzionamento efficiente con l’inferenza tra Regioni, puoi aggiornare le policy IAM e di controllo dei servizi in modo da consentire tutte le azioni di inferenza Amazon Bedrock richieste, ad esempio bedrock:InvokeModel* o bedrock:CreateModelInvocationJob, in tutte le Regioni di destinazione incluse nel profilo di inferenza scelto. Per ulteriori informazioni, consulta Enabling Amazon Bedrock cross-Region inference in multi-account environments.

Nota

Alcuni profili di inferenza vengono instradati verso Regioni di destinazione diverse, a seconda della Regione di origine da cui vengono chiamati. Ad esempio, se effettui la chiamata da us.anthropic.claude-3-haiku-20240307-v1:0 da Stati Uniti orientali (Ohio), le richieste possono essere instradate verso us-east-1, us-east-2 o us-west-2, mentre per una chiamata effettuata da Stati Uniti occidentali (Oregon), le richieste possono essere instradate solo verso us-east-1 e us-west-2.

Per controllare le Regioni di origine e di destinazione di un profilo di inferenza, puoi effettuare una delle operazioni seguenti:

Nota

Il profilo di inferenza globale tra Regioni per un modello specifico può cambiare nel corso del tempo, man mano che AWS aggiunge altre Regioni commerciali in cui possono essere elaborate le richieste. Tuttavia, se un profilo di inferenza è legato a un’area geografica (come Stati Uniti, Unione Europea o APAC), l’elenco delle Regioni di destinazione non cambierà mai. AWS può creare nuovi profili di inferenza che incorporano nuove Regioni. Puoi aggiornare i sistemi in modo che utilizzino questi profili di inferenza modificando gli ID nella configurazione con quelli nuovi.

Il profilo di inferenza tra Regioni globale è attualmente supportato solo nel modello Anthropic Claude Sonnet 4 per queste Regioni di origine: Stati Uniti occidentali (Oregon), Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Europa (Irlanda) e Asia Pacifico (Tokyo). Le Regioni di destinazione per il profilo di inferenza globale includono tutte le Regioni AWS commerciali.

Tieni in considerazione i seguenti concetti chiave durante l’inferenza tra Regioni:

  • L’utilizzo dell’inferenza tra Regioni non prevede costi aggiuntivi. Il prezzo viene calcolato in base alla Regione da cui si chiama il profilo. Per informazioni sui prezzi, consulta Prezzi di Amazon Bedrock.

  • I profili di inferenza globali tra Regioni offrono un throughput più elevato rispetto a un profilo di inferenza legato a una particolare area geografica. Un profilo di inferenza legato a una particolare area geografica offrono un throughput più elevato rispetto a un’inferenza a Regione singola.

  • Per visualizzare le quote predefinite per il throughput tra Regioni quando si utilizzano profili di inferenza legati a un’area geografica (ad esempio Stati Uniti, UE e APAC), consulta i valori in Richieste di inferenza del modello tra Regioni al minuto per ${Model} e Token di inferenza del modello tra Regioni al minuto per ${Model} in Quote di servizio di Amazon Bedrock in Riferimenti generali AWS.

  • Per visualizzare le quote predefinite per il throughput tra Regioni quando si utilizzano profili di inferenza globali, consulta i valori in Richieste di inferenza del modello tra Regioni al minuto per ${Model} e Token di inferenza del modello tra Regioni al minuto per ${Model} in Quote di servizio di Amazon Bedrock in Riferimenti generali AWS.

    È possibile richiedere, visualizzare e gestire le quote per il profilo di inferenza tra Regioni globale nella Console Service Quotas oppure utilizzando i comandi dell’Interfaccia della linea di comando AWS (AWS CLI) nella Regione Stati Uniti orientali (Virginia settentrionale). Tieni presente che le quote di inferenza globali tra Regioni non vengono visualizzate nella console Service Quotas o nell’Interfaccia della linea di comando AWS (AWS CLI) per le altre Regioni di origine elencate nel profilo di inferenza globale.

  • Le richieste di inferenza tra Regioni relative a un profilo di inferenza legato a un’area geografica (ad esempio Stati Uniti, UE e APAC) vengono mantenute all’interno delle Regioni AWS che fanno parte dell’area geografica in cui risiedono originariamente i dati. Ad esempio, una richiesta effettuata negli Stati Uniti viene conservata nelle Regioni AWS degli Stati Uniti. Sebbene i dati rimangano archiviati solo nella Regione di origine, durante l’inferenza tra Regioni i prompt di input e i risultati di output potrebbero spostarsi al di fuori della Regione di origine. Tutti i dati verranno trasmessi in modalità crittografata attraverso la rete sicura di Amazon.

  • Anche i Servizi AWS supportati da Amazon Bedrock possono utilizzare CRIS. Per ulteriori informazioni, consulta la documentazione per il servizio specifico.

Utilizzare un profilo di inferenza tra Regioni (definito dal sistema)

Per utilizzare l’inferenza tra Regioni, è necessario includere un profilo di inferenza quando si esegue l’inferenza del modello nei modi seguenti:

  • Inferenza del modello on demand: specifica l’ID dell’inferenza del modello come modelId quando si invia una richiesta InvokeModel, InvokeModelWithResponseStream, Converse o ConverseStream request. Un profilo di inferenza definisce una o più Regioni verso le quali può instradare le richieste di inferenza provenienti dalla Regione di origine. L’uso dell’inferenza tra Regioni aumenta il throughput e le prestazioni instradando dinamicamente le richieste di invocazione del modello tra le Regioni definite nel profilo di inferenza. Fattori di routing nel traffico degli utenti, nella domanda e nell’utilizzo delle risorse. Per ulteriori informazioni, consulta Invio di prompt e generazione di risposte con l’inferenza del modello.

  • Inferenza in batch: invia richieste in modo asincrono con l’inferenza in batch specificando l’ID del profilo di inferenza come modelId quando si invia una richiesta CreateModelInvocationJob. L’uso di un profilo di inferenza consente di utilizzare il calcolo su più Regioni AWS e di ottenere tempi di elaborazione più rapidi per i processi batch. Al termine del processo, puoi recuperare i file di output dal bucket Amazon S3 nella Regione di origine.

  • Agenti: specifica l’ID del profilo di inferenza nel campo foundationModel di una richiesta CreateAgent. Per ulteriori informazioni, consulta Creazione e configurazione manuale dell’agente.

  • Generazione di risposte della knowledge base: è possibile utilizzare l’inferenza tra Regioni per generare una risposta dopo aver eseguito una query su una knowledge base. Per ulteriori informazioni, consulta Test della knowledge base con query e risposte.

  • Valutazione del modello: è possibile inviare un profilo di inferenza come modello da valutare quando si invia un processo di valutazione del modello. Per ulteriori informazioni, consulta Valutare le prestazioni delle risorse Amazon Bedrock.

  • Gestione prompt: è possibile utilizzare un profilo di inferenza per generare una risposta a un prompt creato in Gestione prompt. Per ulteriori informazioni, consulta Creare e archiviare prompt riutilizzabili con Gestione dei prompt in Amazon Bedrock.

  • Flussi di prompt: è possibile utilizzare un profilo di inferenza quando si genera una risposta per un prompt definito in linea in un nodo prompt in un flusso di prompt. Per ulteriori informazioni, consulta Creare un flusso di lavoro di IA generativa end-to-end con Amazon Bedrock Flows.

Nota

Il profilo di inferenza globale è supportato per l’inferenza del modello on demand, l’inferenza in batch, gli agenti, la valutazione del modello, la gestione dei prompt e i flussi di prompt.

Per informazioni su come utilizzare un profilo di inferenza per inviare richieste di invocazione del modello tra Regioni, consulta Utilizzare un profilo di inferenza nell’invocazione del modello.

Per ulteriori informazioni sull’inferenza tra Regioni, consulta Introduzione all’inferenza tra Regioni in Amazon Bedrock.