Funzionamento dell’inferenza in Amazon Bedrock - Amazon Bedrock

Funzionamento dell’inferenza in Amazon Bedrock

Quando si invia un inputo a un modello, il modello prevede una probabile sequenza di token che segue e restituisce tale sequenza come output. Amazon Bedrock offre la possibilità di eseguire inferenze nel modello di fondazione che preferisci. Quando si esegue l’inferenza, è necessario fornire gli input seguenti:

Invocazione di modelli in Regioni AWS diverse.

Quando si invoca un modello, si sceglie la Regione AWS in cui invocarla. Le quote per la frequenza e la dimensione delle richieste che è possibile effettuare dipendono dalla Regione. Cerca le quote seguenti in Quote di servizio di Amazon Bedrock:

  • Richieste di inferenza del modello on demand al minuto per ${Model}

  • Token InvokeModel on demand al minuto per ${Model}

È anche possibile invocare un profilo di inferenza anziché il modello di fondazione stesso. Un profilo di inferenza definisce un modello e una o più Regioni a cui il profilo di inferenza può instradare le richieste di invocazione del modello. Invocando un profilo di inferenza che include più Regioni, è possibile aumentare il throughput. Per ulteriori informazioni, consulta Aumentare il throughput con l’inferenza tra Regioni. Per visualizzare le quote relative alla frequenza e alla dimensione delle richieste che si possono effettuare con un profilo di inferenza, cerca le seguenti quote in Quote di servizio di Amazon Bedrock:

  • Richieste InvokeModel tra Regioni al minuto per ${Model}

  • Token InvokeModel tra Regioni al minuto per ${Model}

  • Richieste InvokeModel globali tra Regioni al minuto per ${Model}

  • Token InvokeModel globali tra Regioni al minuto per ${Model}

Le richieste inviate a una Regione possono essere soddisfatte da zone locali che condividono la stessa Regione principale. Ad esempio, le richieste effettuate negli Stati Uniti orientali (Virginia settentrionale) (us-east-1) possono essere soddisfatte da qualsiasi zona locale associata, come Atlanta, Stati Uniti (us-east-1-atl-2a).

Lo stesso principio si applica quando si utilizza l’inferenza tra Regioni. Ad esempio, le richieste inviate al profilo di inferenza Anthropic Claude 3 Haiku degli Stati Uniti possono essere servite da qualsiasi zona locale la cui Regione principale si trovi negli Stati Uniti, come Seattle, Stati Uniti (us-west-2-sea-1a). Quando ad AWS si aggiungono nuove zone locali, queste vengono aggiunte anche all’endpoint di inferenza tra Regioni corrispondente.

Per visualizzare un elenco degli endpoint locali e delle Regioni principali a cui sono associati, consulta Posizioni delle zone locali di AWS.

Quando si invoca un profilo di inferenza tra Regioni in Amazon Bedrock, la richiesta proviene da una Regione di origine e viene automaticamente instradata a una delle Regioni di destinazione definite nel profilo, ottimizzando le prestazioni. Le Regioni di destinazione per i profili di inferenza tra Regioni globali includono tutte le Regioni commerciali.

Il profilo di inferenza globale tra Regioni per un modello specifico può cambiare nel corso del tempo, man mano che AWS aggiunge altre Regioni commerciali in cui possono essere elaborate le richieste. Tuttavia, se un profilo di inferenza è legato a un’area geografica (come Stati Uniti, Unione Europea o APAC), l’elenco delle Regioni di destinazione non cambierà mai. AWS può creare nuovi profili di inferenza che incorporano nuove Regioni. Puoi aggiornare i sistemi in modo che utilizzino questi profili di inferenza modificando gli ID nella configurazione con quelli nuovi.

Nota

Le Regioni di destinazione in un profilo di inferenza tra Regioni possono includere Regioni su adesione, ovvero le Regioni che devi abilitare in modo esplicito a livello di Account AWS o di organizzazione. Per ulteriori informazioni, consulta Abilitare o disabilitare le Regioni AWS nell’account. Quando utilizzi un profilo di inferenza tra Regioni, la richiesta di inferenza può essere instradata a una qualsiasi delle Regioni di destinazione nel profilo, anche se non hai aderito a tali Regioni nell’account.

Le policy di controllo dei servizi e le policy AWS Identity and Access Management (IAM) operano insieme per controllare dove consentire l’inferenza tra Regioni. Utilizzando policy di controllo dei servizi, puoi controllare quali Regioni può utilizzare Amazon Bedrock per l’inferenza, mentre attraverso policy IAM puoi definire quali utenti o ruoli sono autorizzati a eseguire l’inferenza. Se una Regione di destinazione in un profilo di inferenza tra Regioni è bloccata nelle policy di controllo dei servizi, la richiesta avrà esito negativo anche se le altre Regioni restano consentite. Per assicurare il funzionamento efficiente con l’inferenza tra Regioni, puoi aggiornare le policy IAM e di controllo dei servizi in modo da consentire tutte le azioni di inferenza Amazon Bedrock richieste, ad esempio bedrock:InvokeModel* o bedrock:CreateModelInvocationJob, in tutte le Regioni di destinazione incluse nel profilo di inferenza scelto. Per ulteriori informazioni, consulta https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/Enabling Amazon Bedrock cross-Region inference in multi-account environments.