Funzionamento dell’inferenza in Amazon Bedrock
Quando si invia un inputo a un modello, il modello prevede una probabile sequenza di token che segue e restituisce tale sequenza come output. Amazon Bedrock offre la possibilità di eseguire inferenze nel modello di fondazione che preferisci. Quando si esegue l’inferenza, è necessario fornire gli input seguenti:
-
Prompt: input fornito al modello affinché questo generi una risposta. Per informazioni sulla scrittura dei prompt, consulta Concetti di progettazione dei prompt. Per informazioni sulla protezione dagli attacchi di iniezione di prompt, consulta Sicurezza dell’iniezione di prompt.
-
Modello: si inviano richieste a un modello per eseguire inferenze su un prompt. Il modello scelto specifica anche un livello di throughput, che definisce il numero e la velocità di token di input e output che è possibile elaborare. È possibile creare richieste per i seguenti tipi di modelli:
-
Modello base: modello di fondazione con cui eseguire l’inferenza. Le richieste vengono inviate a una singola Regione AWS. Per gli ID modello, consulta Modelli di fondazione supportati in Amazon Bedrock. Per informazioni sui modelli di fondazione disponibili Amazon Bedrock, consulta Informazioni sul modello di fondazione Amazon Bedrock.
-
Profilo di inferenza: modello di fondazione con cui eseguire l’inferenza. Le richieste vengono inviate al modello in più Regioni AWS. Per gli ID dei profili di inferenza, consulta Regioni e modelli supportati per i profili di inferenza.
Nota
I modelli differiscono nella disponibilità del modello di base e del profilo di inferenza a seconda della Regione e del metodo API. Per ulteriori informazioni, consulta Modelli di fondazione supportati in Amazon Bedrock e le pagine relative ai singoli modelli nei Riferimenti ai modelli di fondazione.
-
Throughput allocato: modello di fondazione per cui è stato acquistato throughput dedicato. Per ulteriori informazioni, consulta Throughput allocato.
-
Modello personalizzato: modello di fondazione i cui pesi sono stati modificati tramite la personalizzazione del modello. Per ulteriori informazioni, consulta Personalizzazione del modello per migliorarne le prestazioni per il proprio caso d’uso.
-
-
Parametri di inferenza: set di valori che possono essere adattati per limitare o influenzare la risposta del modello. Per informazioni sui parametri di inferenza, consulta Influenza sulla generazione della risposta con i parametri di inferenza e Parametri di richiesta di inferenza e campi di risposta per i modelli di fondazione.
Invocazione di modelli in Regioni AWS diverse.
Quando si invoca un modello, si sceglie la Regione AWS in cui invocarla. Le quote per la frequenza e la dimensione delle richieste che è possibile effettuare dipendono dalla Regione. Cerca le quote seguenti in Quote di servizio di Amazon Bedrock:
-
Richieste di inferenza del modello on demand al minuto per
${Model} -
Token InvokeModel on demand al minuto per
${Model}
È anche possibile invocare un profilo di inferenza anziché il modello di fondazione stesso. Un profilo di inferenza definisce un modello e una o più Regioni a cui il profilo di inferenza può instradare le richieste di invocazione del modello. Invocando un profilo di inferenza che include più Regioni, è possibile aumentare il throughput. Per ulteriori informazioni, consulta Aumentare il throughput con l’inferenza tra Regioni. Per visualizzare le quote relative alla frequenza e alla dimensione delle richieste che si possono effettuare con un profilo di inferenza, cerca le seguenti quote in Quote di servizio di Amazon Bedrock:
-
Richieste InvokeModel tra Regioni al minuto per
${Model} -
Token InvokeModel tra Regioni al minuto per
${Model} -
Richieste InvokeModel globali tra Regioni al minuto per
${Model} -
Token InvokeModel globali tra Regioni al minuto per
${Model}
Le richieste inviate a una Regione possono essere soddisfatte da zone locali che condividono la stessa Regione principale. Ad esempio, le richieste effettuate negli Stati Uniti orientali (Virginia settentrionale) (us-east-1) possono essere soddisfatte da qualsiasi zona locale associata, come Atlanta, Stati Uniti (us-east-1-atl-2a).
Lo stesso principio si applica quando si utilizza l’inferenza tra Regioni. Ad esempio, le richieste inviate al profilo di inferenza Anthropic Claude 3 Haiku degli Stati Uniti possono essere servite da qualsiasi zona locale la cui Regione principale si trovi negli Stati Uniti, come Seattle, Stati Uniti (us-west-2-sea-1a). Quando ad AWS si aggiungono nuove zone locali, queste vengono aggiunte anche all’endpoint di inferenza tra Regioni corrispondente.
Per visualizzare un elenco degli endpoint locali e delle Regioni principali a cui sono associati, consulta Posizioni delle zone locali di AWS
Quando si invoca un profilo di inferenza tra Regioni in Amazon Bedrock, la richiesta proviene da una Regione di origine e viene automaticamente instradata a una delle Regioni di destinazione definite nel profilo, ottimizzando le prestazioni. Le Regioni di destinazione per i profili di inferenza tra Regioni globali includono tutte le Regioni commerciali.
Il profilo di inferenza globale tra Regioni per un modello specifico può cambiare nel corso del tempo, man mano che AWS aggiunge altre Regioni commerciali in cui possono essere elaborate le richieste. Tuttavia, se un profilo di inferenza è legato a un’area geografica (come Stati Uniti, Unione Europea o APAC), l’elenco delle Regioni di destinazione non cambierà mai. AWS può creare nuovi profili di inferenza che incorporano nuove Regioni. Puoi aggiornare i sistemi in modo che utilizzino questi profili di inferenza modificando gli ID nella configurazione con quelli nuovi.
Nota
Le Regioni di destinazione in un profilo di inferenza tra Regioni possono includere Regioni su adesione, ovvero le Regioni che devi abilitare in modo esplicito a livello di Account AWS o di organizzazione. Per ulteriori informazioni, consulta Abilitare o disabilitare le Regioni AWS nell’account. Quando utilizzi un profilo di inferenza tra Regioni, la richiesta di inferenza può essere instradata a una qualsiasi delle Regioni di destinazione nel profilo, anche se non hai aderito a tali Regioni nell’account.
Le policy di controllo dei servizi e le policy AWS Identity and Access Management (IAM) operano insieme per controllare dove consentire l’inferenza tra Regioni. Utilizzando policy di controllo dei servizi, puoi controllare quali Regioni può utilizzare Amazon Bedrock per l’inferenza, mentre attraverso policy IAM puoi definire quali utenti o ruoli sono autorizzati a eseguire l’inferenza. Se una Regione di destinazione in un profilo di inferenza tra Regioni è bloccata nelle policy di controllo dei servizi, la richiesta avrà esito negativo anche se le altre Regioni restano consentite. Per assicurare il funzionamento efficiente con l’inferenza tra Regioni, puoi aggiornare le policy IAM e di controllo dei servizi in modo da consentire tutte le azioni di inferenza Amazon Bedrock richieste, ad esempio bedrock:InvokeModel* o bedrock:CreateModelInvocationJob, in tutte le Regioni di destinazione incluse nel profilo di inferenza scelto. Per ulteriori informazioni, consulta https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/