Vantaggi dell'inferenza globale tra regioni Considerazioni sull'inferenza globale tra regioni Requisiti delle policy IAM per l'inferenza globale tra regioni Requisiti della politica di controllo dei servizi per l'inferenza globale tra regioni Il limite di richiesta aumenta per l'inferenza globale tra regioni Usa l'inferenza globale tra regioni Implementa l'inferenza globale tra regioni

Inferenza globale tra regioni

L'inferenza globale tra regioni estende l'inferenza interregionale oltre i confini geografici, abilitando l'instradamento delle richieste di inferenza verso le aziende commerciali supportate in tutto il Regioni AWS mondo, ottimizzando le risorse disponibili e garantendo una maggiore produttività del modello.

Vantaggi dell'inferenza globale tra regioni

L'inferenza globale interregionale per Claude Sonnet 4.5 di Anthropic offre molteplici vantaggi rispetto ai tradizionali profili di inferenza geografica interregionale:

Produttività migliorata durante i picchi di domanda: l'inferenza globale tra regioni offre una maggiore resilienza durante i periodi di picco della domanda indirizzando automaticamente le richieste verso la capacità disponibile. Regioni AWS Questo routing dinamico avviene senza problemi senza configurazioni o interventi aggiuntivi da parte degli sviluppatori. A differenza degli approcci tradizionali che potrebbero richiedere un complesso bilanciamento del carico sul lato client Regioni AWS, l'inferenza globale interregionale gestisce automaticamente i picchi di traffico. Ciò è particolarmente importante per le applicazioni aziendali critiche in cui i tempi di inattività o il peggioramento delle prestazioni possono avere impatti finanziari o reputazionali significativi.
Cost-efficiency— L'inferenza globale interregionale per Claude Sonnet 4.5 di Anthropic offre un risparmio di circa il 10% sui prezzi dei token di input e output rispetto all'inferenza geografica interregionale. Il prezzo viene calcolato in base alla fonte Regione AWS da cui viene effettuata la richiesta (fonte). Regione AWS Ciò significa che le organizzazioni possono trarre vantaggio da una maggiore resilienza con costi ancora inferiori. Questo modello di prezzo rende l'inferenza globale interregionale una soluzione conveniente per le organizzazioni che desiderano ottimizzare le proprie implementazioni di intelligenza artificiale generativa. Migliorando l'uso delle risorse e garantendo un throughput più elevato senza costi aggiuntivi, aiuta le organizzazioni a massimizzare il valore del loro investimento in Amazon Bedrock.
Monitoraggio semplificato: quando si utilizza l'inferenza globale tra regioni, si CloudTrail continua a registrare le voci di registro nella fonte Regione AWS, semplificando l'osservabilità CloudWatch e la gestione. Anche se le vostre richieste vengono elaborate in tutto Regioni AWS il mondo, mantenete una visione centralizzata delle prestazioni e dei modelli di utilizzo dell'applicazione attraverso i vostri strumenti di monitoraggio familiari. AWS
On-demand flessibilità delle quote: con l'inferenza globale tra regioni, i carichi di lavoro non sono più limitati dalla capacità regionale individuale. Invece di limitarsi alla capacità disponibile in uno specifico settore Regione AWS, le richieste possono essere instradate dinamicamente attraverso l'infrastruttura globale. AWS Ciò fornisce l'accesso a un pool di risorse molto più ampio, rendendo meno complicata la gestione di carichi di lavoro ad alto volume e picchi di traffico improvvisi.

Considerazioni sull'inferenza globale tra regioni

Notate le seguenti informazioni sull'inferenza globale tra regioni:

I profili di Cross-Region inferenza globali forniscono un throughput più elevato rispetto a un profilo di inferenza legato a una particolare area geografica. Un profilo di inferenza legato a una particolare area geografica offrono un throughput più elevato rispetto a un’inferenza a Regione singola.
Per visualizzare le quote predefinite per il throughput interregionale quando si utilizzano i profili di inferenza globali, consulta le richieste di inferenza del Cross-region modello globale al minuto per $ {Model} e i token di inferenza del Cross-region modello globale al minuto per i valori $ {Model} nelle quote di servizio Amazon Bedrock nella Guida generale.AWS

È possibile richiedere, visualizzare e gestire le quote per il Global Cross-Region Inference Profile dalla console Service Quotas o utilizzando i comandi AWS CLI nella regione di origine.

Requisiti delle policy IAM per l'inferenza globale tra regioni

Per abilitare l'inferenza globale tra regioni per i tuoi utenti, devi applicare una policy IAM in tre parti al ruolo. Di seguito è riportato un esempio di policy IAM per fornire un controllo granulare. È possibile sostituire <REQUESTING REGION> la politica di esempio con quella in Regione AWS cui si opera.


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "GrantGlobalCrisInferenceProfileRegionAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "<REQUESTING REGION>"
                }
            }
        },
        {
            "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "<REQUESTING REGION>",
                    "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
                }
            }
        },
        {
            "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess",
            "Effect": "Allow",
            "Action": "bedrock:InvokeModel",
            "Resource": [
                "arn:aws:bedrock:::foundation-model/<MODEL NAME>"
            ],
            "Condition": {
                "StringEquals": {
                    "aws:RequestedRegion": "unspecified",
                    "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>"
                }
            }
        }
    ]
}

La prima parte della politica consente l'accesso al profilo di inferenza regionale nella richiesta. Regione AWS La seconda parte fornisce l'accesso alla risorsa FM regionale. La terza parte consente l'accesso alla risorsa FM globale, che abilita la funzionalità di routing interregionale.

Quando implementi queste politiche, assicurati che tutte e tre le risorse Amazon Resource Names (ARN) siano incluse nelle tue dichiarazioni IAM:

Il profilo di inferenza regionale ARN segue lo schema. arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME Viene utilizzato per dare accesso al profilo di inferenza globale nell'origine. Regione AWS
Il Regional FM utilizzaarn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Viene utilizzato per dare accesso alla FM nella sorgente Regione AWS.
La FM globale richiedearn:aws:bedrock:::foundation-model/MODEL-NAME. Viene utilizzato per consentire l'accesso alla FM in diverse aree globali Regioni AWS.

L'ARN FM globale non ha alcun Regione AWS account specificato, il che è intenzionale e richiesto per la funzionalità Cross-region.

Disabilita l'inferenza globale tra regioni

Puoi scegliere tra due approcci principali per implementare le politiche di negazione in CRIS globale per ruoli IAM specifici, ciascuno con casi d'uso e implicazioni diversi:

Rimuovere una policy IAM: il primo metodo prevede la rimozione di una o più delle tre policy IAM richieste dalle autorizzazioni degli utenti. Poiché CRIS globale richiede che tutte e tre le politiche funzionino, la rimozione di una politica comporterà il rifiuto dell'accesso.
Implementazione di una politica di negazione — Il secondo approccio consiste nell'implementare una politica di negazione esplicita che si rivolga specificamente ai profili di inferenza CRIS globali. Questo metodo fornisce una documentazione chiara dell'intento di sicurezza e assicura che, anche se qualcuno aggiungesse accidentalmente le politiche di autorizzazione richieste in un secondo momento, la negazione esplicita abbia la precedenza. La politica di negazione deve utilizzare una condizione corrispondente allo schema. StringEquals "aws:RequestedRegion": "unspecified" Questo modello si rivolge specificamente ai profili di inferenza con il global prefisso.

Quando si implementano politiche di negazione, è fondamentale comprendere che il CRIS globale modifica il comportamento del campo. aws:RequestedRegion Le politiche di rifiuto Regione AWS tradizionali che utilizzano StringEquals condizioni con Regione AWS nomi specifici, ad esempio non "aws:RequestedRegion": "us-west-2" funzioneranno come previsto con CRIS globale, perché il servizio imposta questo campo sulla destinazione effettiva global anziché sulla destinazione effettiva. Regione AWS Tuttavia, come accennato in precedenza, "aws:RequestedRegion": "unspecified" produrrà l'effetto negazione.

Requisiti della politica di controllo dei servizi per l'inferenza globale tra regioni

Per l'inferenza globale tra regioni, se la politica di sicurezza dell'organizzazione utilizza SCP per bloccare le regioni non utilizzate, è necessario aggiornare le condizioni SCP specifiche della regione per consentire l'accesso con. "aws:RequestedRegion": "unspecified" Questa condizione è specifica dell'inferenza interregionale di Amazon Bedrock Global e garantisce che le richieste possano essere instradate verso tutte le regioni commerciali supportate. AWS

L'esempio seguente SCP blocca tutte le chiamate AWS API al di fuori delle regioni approvate, consentendo al contempo le chiamate di inferenza interregionali di Amazon Bedrock che vengono utilizzate "unspecified" come regione per il routing globale:


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "DenyAllOutsideApprovedRegions",
            "Effect": "Deny",
            "Action": "*",
            "Resource": "*",
            "Condition": {
                "StringNotEquals": {
                    "aws:RequestedRegion": [
                        "us-east-1",
                        "us-east-2",
                        "us-west-2",
                        "unspecified"
                    ]
                }
            }
        }
    ]
}

Disattiva l'inferenza globale tra regioni

Le organizzazioni con requisiti di residenza o conformità dei dati devono valutare se l'inferenza globale interregionale si adatta al proprio framework di conformità, poiché le richieste possono essere elaborate in altre aree commerciali supportate AWS . Per disabilitare in modo esplicito l'inferenza globale tra regioni, implementa la seguente politica SCP:


{
    "Effect": "Deny",
    "Action": "bedrock:*",
    "Resource": "*",
    "Condition": {
        "StringEquals": {
            "aws:RequestedRegion": "unspecified"
        },
        "ArnLike": {
            "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*"
        }
    }
}

Questo SCP nega esplicitamente l'inferenza globale tra regioni perché "aws:RequestedRegion" is "unspecified" e the "ArnLike" condition hanno come target i profili di inferenza con il prefisso nell'ARN. global

AWS Implementazione Control Tower

La modifica manuale degli SCP gestiti da AWS Control Tower è fortemente sconsigliata in quanto può causare deviazioni. Utilizza invece i meccanismi forniti da Control Tower per gestire queste eccezioni. I principi fondamentali prevedono l'estensione dei controlli regionali esistenti o l'abilitazione delle regioni e quindi l'applicazione di una politica di blocco condizionale personalizzata.

Per indicazioni dettagliate e dettagliate sull'implementazione dell'inferenza interregionale con Control Tower, consulta il post del blog Enable Amazon Bedrock Cross-region inference in ambienti multi-account. Ciò riguarda l'estensione degli SCP Region deny esistenti, l'abilitazione delle regioni negate con SCP personalizzati e l'utilizzo di Customizations for Control AWS Tower (cFCT) per implementare SCP personalizzati come infrastruttura come codice.

Il limite di richiesta aumenta per l'inferenza globale tra regioni

Quando si utilizzano profili di inferenza CRIS globali, è possibile utilizzare CRIS globali da oltre 20 fonti supportate. Regioni AWS Poiché si tratterà di un limite globale, le richieste di visualizzazione, gestione o aumento delle quote per i profili di inferenza globali interregionali devono essere effettuate tramite la console Service Quotas o l'interfaccia a AWS riga di comando (AWS CLI) nell'origine richiesta. Regione AWS

Completa i seguenti passaggi per richiedere un aumento del limite:

Accedi alla console Service Quotas del tuo AWS account.
Nel pannello di navigazione, scegliere servizi AWS .
Dall'elenco dei servizi, trova e scegli Amazon Bedrock.
Nell'elenco delle quote per Amazon Bedrock, utilizza il filtro di ricerca per trovare le quote CRIS globali specifiche. Esempio:
- Token di inferenza del modello globale interregionale al minuto per Anthropic Claude Sonnet 4.5 V1
Seleziona la quota che desideri aumentare.
Scegli Richiedi un aumento a livello di account.
Inserisci il nuovo valore di quota desiderato.
Scegli Richiesta per inviare la richiesta.

Nel calcolare l'aumento di quota richiesto, ricordati di tenere conto del burndown rate, definito come la velocità con cui i token di input e output vengono convertiti in utilizzo della quota di token per il sistema di throttling. I seguenti modelli hanno un burn-down rate pari a 5x per i token di output (1 token di output consuma 5 token delle quote):

Claude Anthropic Opus 4
Claude Sonnet antropico 4.5
Claude Sonnet antropico 4
Sonetto antropico Claude 3.7

Per tutti gli altri modelli, il tasso di consumo è di 1:1 (1 token di output consuma 1 token della quota). Per i token di input, il rapporto tra token e quota è 1:1. Il calcolo del numero totale di token per richiesta è il seguente:

Input token count + Cache write input tokens + (Output token count x Burndown rate)

Usa l'inferenza globale tra regioni

Per utilizzare l'inferenza globale tra regioni con Claude Sonnet 4.5 di Anthropic, gli sviluppatori devono completare i seguenti passaggi chiave:

Usa l'ID del profilo di inferenza globale: quando effettui chiamate API ad Amazon Bedrock, specifica l'ID del profilo di inferenza Claude Sonnet 4.5 globale di Anthropic (global.anthropic.claude-sonnet-4-5-20250929-v1:0) anziché un ID modello specifico. Regione AWS
Configura le autorizzazioni IAM: concedi le autorizzazioni IAM appropriate per accedere al profilo di inferenza e alle FM nella potenziale destinazione. Regioni AWS

L'inferenza globale tra regioni è supportata per:

On-demand inferenza del modello
Inferenza in batch
Agents (Agenti)
valutazione del modello
gestione dei prompt
Flussi rapidi

Nota

Il profilo di inferenza globale è supportato per l'inferenza On-demand del modello, l'inferenza Batch, gli agenti, la valutazione del modello, la gestione dei prompt e i flussi di prompt.

Implementa l'inferenza globale tra regioni

L'implementazione dell'inferenza globale tra regioni con Claude Sonnet 4.5 di Anthropic è semplice e richiede solo poche modifiche al codice dell'applicazione esistente. Di seguito è riportato un esempio di come aggiornare il codice in Python:


import boto3
import json
bedrock = boto3.client('bedrock-runtime', region_name='us-east-1')
model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0"  
response = bedrock.converse(
    messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}],
    modelId=model_id,
)

print("Response:", response['output']['message']['content'][0]['text'])
print("Token usage:", response['usage'])
print("Total tokens:", response['usage']['totalTokens'])

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Inferenza geografica interregionale

Profili di inferenza