View a markdown version of this page

Inferenza globale tra regioni - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Inferenza globale tra regioni

L'inferenza globale tra regioni estende l'inferenza interregionale oltre i confini geografici, abilitando l'instradamento delle richieste di inferenza verso le aziende commerciali supportate in tutto il Regioni AWS mondo, ottimizzando le risorse disponibili e garantendo una maggiore produttività del modello.

Vantaggi dell'inferenza globale tra regioni

L'inferenza globale interregionale per Claude Sonnet 4.5 di Anthropic offre molteplici vantaggi rispetto ai tradizionali profili di inferenza geografica interregionale:

  • Produttività migliorata durante i picchi di domanda: l'inferenza globale tra regioni offre una maggiore resilienza durante i periodi di picco della domanda indirizzando automaticamente le richieste verso la capacità disponibile. Regioni AWS Questo routing dinamico avviene senza problemi senza configurazioni o interventi aggiuntivi da parte degli sviluppatori. A differenza degli approcci tradizionali che potrebbero richiedere un complesso bilanciamento del carico sul lato client Regioni AWS, l'inferenza globale interregionale gestisce automaticamente i picchi di traffico. Ciò è particolarmente importante per le applicazioni aziendali critiche in cui i tempi di inattività o il peggioramento delle prestazioni possono avere impatti finanziari o reputazionali significativi.

  • Efficienza in termini di costi: l'inferenza globale interregionale per Claude Sonnet 4.5 di Anthropic offre un risparmio di circa il 10% sui prezzi dei token di input e output rispetto all'inferenza geografica interregionale. Il prezzo viene calcolato in base alla fonte Regione AWS da cui viene effettuata la richiesta (fonte). Regione AWS Ciò significa che le organizzazioni possono trarre vantaggio da una maggiore resilienza con costi ancora inferiori. Questo modello di prezzo rende l'inferenza globale interregionale una soluzione conveniente per le organizzazioni che desiderano ottimizzare le proprie implementazioni di intelligenza artificiale generativa. Migliorando l'utilizzo delle risorse e permettendo un throughput più elevato senza costi aggiuntivi, aiuta le organizzazioni a massimizzare il valore del loro investimento in Amazon Bedrock.

  • Monitoraggio semplificato: quando si utilizza l'inferenza globale tra regioni, si CloudTrail continua a registrare le voci di registro nella fonte, semplificando l'osservabilità CloudWatch e la gestione. Regione AWS Anche se le vostre richieste vengono elaborate in tutto Regioni AWS il mondo, mantenete una visione centralizzata delle prestazioni e dei modelli di utilizzo dell'applicazione attraverso i vostri strumenti di monitoraggio familiari. AWS

  • Flessibilità delle quote su richiesta: con l'inferenza globale tra regioni, i carichi di lavoro non sono più limitati dalla capacità regionale individuale. Invece di limitarsi alla capacità disponibile in uno specifico ambito Regione AWS, le richieste possono essere instradate dinamicamente attraverso l'infrastruttura globale. AWS Ciò fornisce l'accesso a un pool di risorse molto più ampio, rendendo meno complicata la gestione di carichi di lavoro ad alto volume e picchi di traffico improvvisi.

Considerazioni sull'inferenza globale tra regioni

Notate le seguenti informazioni sull'inferenza globale tra regioni:

  • I profili di inferenza globali tra Regioni offrono un throughput più elevato rispetto a un profilo di inferenza legato a una particolare area geografica. Un profilo di inferenza legato a una particolare area geografica offrono un throughput più elevato rispetto a un’inferenza a Regione singola.

  • Per visualizzare le quote predefinite per il throughput tra Regioni quando si utilizzano profili di inferenza globali, consulta i valori in Richieste di inferenza del modello tra Regioni al minuto per ${Model} e Token di inferenza del modello tra Regioni al minuto per ${Model} in Quote di servizio di Amazon Bedrock in Riferimenti generali AWS .

    È possibile richiedere, visualizzare e gestire le quote per il Global Cross-Region Inference Profile dalla console Service Quotas o utilizzando i comandi AWS CLI nella regione di origine.

Requisiti delle policy IAM per l'inferenza globale tra regioni

Per abilitare l'inferenza globale tra regioni per i tuoi utenti, devi applicare una policy IAM in tre parti al ruolo. Di seguito è riportato un esempio di policy IAM per fornire un controllo granulare. È possibile sostituire <REQUESTING REGION> la politica di esempio con quella in Regione AWS cui si opera.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }

La prima parte della politica consente l'accesso al profilo di inferenza regionale nella richiesta. Regione AWS La seconda parte fornisce l'accesso alla risorsa FM regionale. La terza parte consente l'accesso alla risorsa FM globale, che abilita la funzionalità di routing interregionale.

Quando implementi queste politiche, assicurati che tutte e tre le risorse Amazon Resource Names (ARNs) siano incluse nelle tue istruzioni IAM:

  • Il profilo di inferenza regionale ARN segue lo schema. arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME Viene utilizzato per dare accesso al profilo di inferenza globale nell'origine. Regione AWS

  • Il Regional FM utilizzaarn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Viene utilizzato per dare accesso alla FM nella sorgente Regione AWS.

  • La FM globale richiedearn:aws:bedrock:::foundation-model/MODEL-NAME. Viene utilizzato per consentire l'accesso alla FM in diverse aree globali Regioni AWS.

L'ARN FM globale non ha alcun Regione AWS account specificato, il che è intenzionale e richiesto per la funzionalità Cross-region.

Disabilita l'inferenza globale tra regioni

Puoi scegliere tra due approcci principali per implementare le politiche di negazione in CRIS globale per ruoli IAM specifici, ciascuno con casi d'uso e implicazioni diversi:

  • Rimuovere una policy IAM: il primo metodo prevede la rimozione di una o più delle tre policy IAM richieste dalle autorizzazioni degli utenti. Poiché CRIS globale richiede che tutte e tre le politiche funzionino, la rimozione di una politica comporterà il rifiuto dell'accesso.

  • Implementazione di una politica di negazione — Il secondo approccio consiste nell'implementare una politica di negazione esplicita che si rivolga specificamente ai profili di inferenza CRIS globali. Questo metodo fornisce una documentazione chiara dell'intento di sicurezza e assicura che, anche se qualcuno aggiungesse accidentalmente le politiche di autorizzazione richieste in un secondo momento, la negazione esplicita abbia la precedenza. La politica di negazione deve utilizzare una condizione corrispondente allo schema. StringEquals "aws:RequestedRegion": "unspecified" Questo modello si rivolge specificamente ai profili di inferenza con il global prefisso.

Quando si implementano politiche di negazione, è fondamentale comprendere che il CRIS globale modifica il comportamento del campo. aws:RequestedRegion Le politiche di rifiuto Regione AWS tradizionali che utilizzano StringEquals condizioni con Regione AWS nomi specifici, ad esempio non "aws:RequestedRegion": "us-west-2" funzioneranno come previsto con CRIS globale, perché il servizio imposta questo campo sulla destinazione effettiva global anziché sulla destinazione effettiva. Regione AWS Tuttavia, come accennato in precedenza, "aws:RequestedRegion": "unspecified" produrrà l'effetto negazione.

Requisiti della politica di controllo dei servizi per l'inferenza globale tra regioni

Per l'inferenza globale tra regioni, se la politica di sicurezza dell'organizzazione prevede il blocco delle regioni non utilizzate, è necessario aggiornare le condizioni SCP specifiche della regione per consentire l'accesso con. SCPs "aws:RequestedRegion": "unspecified" Questa condizione è specifica dell'inferenza interregionale di Amazon Bedrock Global e garantisce che le richieste possano essere instradate verso tutte le regioni commerciali supportate. AWS

L'esempio seguente SCP blocca tutte le chiamate AWS API al di fuori delle regioni approvate, consentendo al contempo le chiamate di inferenza interregionali di Amazon Bedrock che vengono utilizzate "unspecified" come regione per il routing globale:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }

Disattiva l'inferenza globale tra regioni

Le organizzazioni con requisiti di residenza o conformità dei dati devono valutare se l'inferenza globale interregionale si adatta al proprio framework di conformità, poiché le richieste possono essere elaborate in altre aree commerciali supportate AWS . Per disabilitare in modo esplicito l'inferenza globale tra regioni, implementa la seguente politica SCP:

{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }

Questo SCP nega esplicitamente l'inferenza globale tra regioni perché "aws:RequestedRegion" is "unspecified" e the "ArnLike" condition hanno come target i profili di inferenza con il prefisso nell'ARN. global

AWS Implementazione Control Tower

La modifica manuale SCPs gestita da AWS Control Tower è fortemente sconsigliata in quanto può causare deviazioni. Utilizza invece i meccanismi forniti da Control Tower per gestire queste eccezioni. I principi fondamentali prevedono l'estensione dei controlli regionali esistenti o l'abilitazione delle regioni e quindi l'applicazione di una politica di blocco condizionale personalizzata.

Per step-by-step indicazioni dettagliate sull'implementazione dell'inferenza interregionale con Control Tower, consulta il post del blog Enable Amazon Bedrock Cross-region inference in ambienti multi-account. Ciò include l'estensione delle aree Region Deny esistenti SCPs, l'abilitazione delle aree negate con funzionalità personalizzate SCPs e l'utilizzo di Customizations for AWS Control Tower (cFCT) per implementare come infrastruttura personalizzata SCPs come codice.

Aumenta il limite di richiesta per l'inferenza globale tra regioni

Quando si utilizzano profili di inferenza CRIS globali, è possibile utilizzare CRIS globali da oltre 20 fonti supportate. Regioni AWS Poiché si tratterà di un limite globale, le richieste di visualizzazione, gestione o aumento delle quote per i profili di inferenza globali interregionali devono essere effettuate tramite la console Service Quotas o l'interfaccia a AWS riga di comando (AWS CLI) nell'origine richiesta. Regione AWS

Completa i seguenti passaggi per richiedere un aumento del limite:

  1. Accedi alla console Service Quotas del tuo AWS account.

  2. Nel pannello di navigazione, scegliere servizi AWS .

  3. Dall'elenco dei servizi, trova e scegli Amazon Bedrock.

  4. Nell'elenco delle quote per Amazon Bedrock, utilizza il filtro di ricerca per trovare le quote CRIS globali specifiche. Esempio:

    • Token di inferenza del modello globale interregionale al minuto per Anthropic Claude Sonnet 4.5 V1

  5. Seleziona la quota che desideri aumentare.

  6. Scegli Richiedi un aumento a livello di account.

  7. Inserisci il nuovo valore di quota desiderato.

  8. Scegli Richiesta per inviare la richiesta.

Nel calcolare l'aumento di quota richiesto, ricordati di tenere conto del burndown rate, definito come la velocità con cui i token di input e output vengono convertiti in utilizzo della quota di token per il sistema di throttling. I seguenti modelli hanno un burn-down rate pari a 5x per i token di output (1 token di output consuma 5 token delle quote):

  • Claude Anthropic Opus 4

  • Claude Sonnet antropico 4.5

  • Claude Sonnet antropico 4

  • Sonetto antropico di Claude 3.7

Per tutti gli altri modelli, il tasso di consumo è di 1:1 (1 token di output consuma 1 token della quota). Per i token di input, il rapporto tra token e quota è 1:1. Il calcolo del numero totale di token per richiesta è il seguente:

Input token count + Cache write input tokens + (Output token count x Burndown rate)

Usa l'inferenza globale tra regioni

Per utilizzare l'inferenza globale tra regioni con Claude Sonnet 4.5 di Anthropic, gli sviluppatori devono completare i seguenti passaggi chiave:

  • Usa l'ID del profilo di inferenza globale: quando effettui chiamate API ad Amazon Bedrock, specifica l'ID del profilo di inferenza Claude Sonnet 4.5 globale di Anthropic (global.anthropic.claude-sonnet-4-5-20250929-v1:0) anziché un ID modello specifico. Regione AWS

  • Configura le autorizzazioni IAM: concedi le autorizzazioni IAM appropriate per accedere al profilo di inferenza e nella potenziale destinazione. FMs Regioni AWS

L'inferenza globale tra regioni è supportata per:

  • Inferenza del modello su richiesta

  • Inferenza in batch

  • Agents (Agenti)

  • Valutazione del modello

  • gestione dei prompt

  • Flussi rapidi

Nota

Il profilo di inferenza globale è supportato per l’inferenza del modello on demand, l’inferenza in batch, gli agenti, la valutazione del modello, la gestione dei prompt e i flussi di prompt.

Implementa l'inferenza globale tra regioni

L'implementazione dell'inferenza globale tra regioni con Claude Sonnet 4.5 di Anthropic è semplice e richiede solo poche modifiche al codice dell'applicazione esistente. Di seguito è riportato un esempio di come aggiornare il codice in Python:

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])