View a markdown version of this page

Inferencia global interregional - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Inferencia global interregional

La inferencia global entre regiones amplía la inferencia entre regiones más allá de los límites geográficos, lo que permite enrutar las solicitudes de inferencia a empresas comerciales de todo el Regiones de AWS mundo, optimiza los recursos disponibles y permite un mayor rendimiento del modelo.

Ventajas de la inferencia global entre regiones

La inferencia global entre regiones del Claude Sonnet 4.5 de Anthropic ofrece múltiples ventajas con respecto a los perfiles de inferencia transregional geográfica tradicionales:

  • Rendimiento mejorado durante los picos de demanda: la inferencia global entre regiones proporciona una mayor resiliencia durante los períodos de máxima demanda al enrutar automáticamente las solicitudes según la capacidad disponible. Regiones de AWS Este enrutamiento dinámico se realiza sin problemas, sin configuración ni intervención adicionales por parte de los desarrolladores. A diferencia de los enfoques tradicionales, que pueden requerir un equilibrio de carga complejo por parte del cliente Regiones de AWS, la inferencia global entre regiones gestiona los picos de tráfico de forma automática. Esto es especialmente importante para las aplicaciones críticas para la empresa, donde el tiempo de inactividad o la degradación del rendimiento pueden tener un impacto financiero o reputacional significativo.

  • Cost-efficiency— La inferencia global interregional del Claude Sonnet 4.5 de Anthropic ofrece un ahorro de aproximadamente un 10% en los precios de los tokens de entrada y salida en comparación con la inferencia geográfica entre regiones. El precio se calcula en función de la fuente a partir Región de AWS de la cual se realiza la solicitud (fuente). Región de AWS Esto significa que las organizaciones pueden beneficiarse de una mayor resiliencia con costes aún más bajos. Este modelo de precios convierte a la inferencia global entre regiones en una solución rentable para las organizaciones que buscan optimizar sus despliegues de IA generativa. Al mejorar el uso de los recursos y permitir un mayor rendimiento sin costes adicionales, ayuda a las organizaciones a maximizar el valor de su inversión en Amazon Bedrock.

  • Supervisión simplificada: cuando se utiliza la inferencia global entre regiones CloudWatch y se CloudTrail siguen registrando las entradas de registro en su fuente Región de AWS, lo que simplifica la observabilidad y la gestión. A pesar de que sus solicitudes se procesan en diferentes países del Regiones de AWS mundo, usted mantiene una visión centralizada del rendimiento y los patrones de uso de su aplicación a través de las herramientas de monitoreo que ya conoce. AWS

  • On-demand flexibilidad de cuotas: con la inferencia global entre regiones, sus cargas de trabajo ya no están limitadas por la capacidad regional individual. En lugar de restringirse a la capacidad disponible en una determinada capacidad Región de AWS, sus solicitudes se pueden redirigir dinámicamente a toda la infraestructura global. AWS Esto proporciona acceso a un conjunto de recursos mucho mayor, lo que facilita la gestión de cargas de trabajo de gran volumen y picos de tráfico repentinos.

Consideraciones sobre la inferencia global entre regiones

Tenga en cuenta la siguiente información sobre la inferencia global entre regiones:

  • Los perfiles de Cross-Region inferencia globales proporcionan un rendimiento superior al de un perfil de inferencia vinculado a una zona geográfica concreta. Un perfil de inferencia vinculado a una zona geográfica concreta proporciona un rendimiento superior que la inferencia en una sola región.

  • Para ver las cuotas predeterminadas de rendimiento entre regiones al utilizar perfiles de inferencia globales, consulte las solicitudes de inferencia del Cross-region modelo global por minuto para $ {Model} y los tokens de inferencia del Cross-region modelo global por minuto para los valores de $ {Model} en las cuotas de servicio de Amazon Bedrock en la Referencia general.AWS

    Puede solicitar, ver y administrar las cuotas del perfil de Cross-Region inferencia global desde la consola Service Quotas o mediante los comandos de AWS CLI en su región de origen.

Requisitos de la política de IAM para la inferencia global entre regiones

Para habilitar la inferencia global entre regiones para sus usuarios, debe aplicar al rol una política de IAM dividida en tres partes. El siguiente es un ejemplo de una política de IAM para proporcionar un control detallado. <REQUESTING REGION>En el ejemplo, puede sustituir la política por la Región de AWS que está utilizando.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "GrantGlobalCrisInferenceProfileRegionAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileInRegionModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:<REQUESTING REGION>::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "<REQUESTING REGION>", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } }, { "Sid": "GrantGlobalCrisInferenceProfileGlobalModelAccess", "Effect": "Allow", "Action": "bedrock:InvokeModel", "Resource": [ "arn:aws:bedrock:::foundation-model/<MODEL NAME>" ], "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified", "bedrock:InferenceProfileArn": "arn:aws:bedrock:<REQUESTING REGION>:<ACCOUNT>:inference-profile/global.<MODEL NAME>" } } } ] }

La primera parte de la política permite el acceso al perfil de inferencia regional incluido en su solicitud Región de AWS. La segunda parte proporciona acceso al recurso FM regional. La tercera parte otorga acceso al recurso FM global, lo que permite la capacidad de enrutamiento entre regiones.

Al implementar estas políticas, asegúrese de que los tres nombres de recursos de Amazon (ARN) de los recursos estén incluidos en sus declaraciones de IAM:

  • El perfil de inferencia regional ARN sigue el patrón. arn:aws:bedrock:REGION:ACCOUNT:inference-profile/global.MODEL-NAME Se utiliza para dar acceso al perfil de inferencia global en la fuente. Región de AWS

  • El FM regional utilizaarn:aws:bedrock:REGION::foundation-model/MODEL-NAME. Se usa para dar acceso a la FM de la fuente Región de AWS.

  • La FM global requierearn:aws:bedrock:::foundation-model/MODEL-NAME. Esto se utiliza para dar acceso a la FM en diferentes entornos globales Regiones de AWS.

El ARN FM global no tiene ninguna Región de AWS cuenta especificada, lo cual es intencional y obligatorio para la funcionalidad entre regiones.

Deshabilite la inferencia global entre regiones

Puede elegir entre dos enfoques principales para implementar políticas de rechazo en el CRIS global para funciones específicas de IAM, cada uno con diferentes casos de uso e implicaciones:

  • Eliminar una política de IAM: el primer método consiste en eliminar una o más de las tres políticas de IAM obligatorias de los permisos de usuario. Como el CRIS global requiere que funcionen las tres políticas, la eliminación de una política provocará la denegación del acceso.

  • Implementar una política de denegación: el segundo enfoque consiste en implementar una política de denegación explícita que se dirija específicamente a los perfiles de inferencia del CRIS global. Este método proporciona una documentación clara de su intención de seguridad y garantiza que, incluso si alguien añade accidentalmente las políticas de autorización requeridas más adelante, prevalecerá la denegación explícita. La política de denegación debe utilizar una StringEquals condición que coincida con el patrón. "aws:RequestedRegion": "unspecified" Este patrón se dirige específicamente a los perfiles de inferencia con el global prefijo.

Al implementar políticas de rechazo, es crucial entender que el CRIS global cambia el comportamiento del aws:RequestedRegion campo. Las políticas Región de AWS de rechazo tradicionales que utilizan StringEquals condiciones con Región de AWS nombres específicos, por ejemplo, no "aws:RequestedRegion": "us-west-2" funcionarán como se esperaba con el CRIS global, ya que el servicio establece este campo global en lugar de en el destino real. Región de AWS Sin embargo, como se mencionó anteriormente, "aws:RequestedRegion": "unspecified" tendrá como resultado el efecto de denegación.

Requisitos de la política de control de servicios para la inferencia global entre regiones

Para obtener conclusiones globales entre regiones, si la política de seguridad de su organización utiliza los SCP para bloquear las regiones no utilizadas, debe actualizar las condiciones del SCP específicas de la región para permitir el acceso a ellos. "aws:RequestedRegion": "unspecified" Esta condición es específica de la inferencia global entre regiones de Amazon Bedrock y garantiza que las solicitudes se puedan enrutar a todas las regiones comerciales compatibles. AWS

El siguiente ejemplo de SCP bloquea todas las llamadas a la AWS API fuera de las regiones aprobadas y, al mismo tiempo, permite las llamadas de inferencia transregional global de Amazon Bedrock que se utilizan "unspecified" como región para el enrutamiento global:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "DenyAllOutsideApprovedRegions", "Effect": "Deny", "Action": "*", "Resource": "*", "Condition": { "StringNotEquals": { "aws:RequestedRegion": [ "us-east-1", "us-east-2", "us-west-2", "unspecified" ] } } } ] }

Deshabilite la inferencia global entre regiones

Las organizaciones con requisitos de cumplimiento o residencia de datos deben evaluar si la inferencia global transregional se ajusta a su marco de cumplimiento, ya que las solicitudes pueden procesarse en otras regiones AWS comerciales compatibles. Para deshabilitar de forma explícita la inferencia global entre regiones, implemente la siguiente política de SCP:

{ "Effect": "Deny", "Action": "bedrock:*", "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "unspecified" }, "ArnLike": { "bedrock:InferenceProfileArn": "arn:aws:bedrock:*:*:inference-profile/global.*" } } }

Este SCP niega explícitamente la inferencia global entre regiones porque "aws:RequestedRegion" es "unspecified" y la "ArnLike" condición se dirige a los perfiles de inferencia con el global prefijo en el ARN.

AWS Implementación de la Torre de Control

Se desaconseja encarecidamente editar manualmente los SCP gestionados por la Torre de AWS Control, ya que puede provocar desviaciones. En su lugar, utilice los mecanismos proporcionados por la Torre de Control para gestionar estas excepciones. Los principios básicos implican ampliar los controles de denegación de regiones existentes o habilitar las regiones y, posteriormente, aplicar una política de bloqueo condicional y personalizada.

Para obtener una guía detallada y paso a paso sobre la implementación de la inferencia entre regiones con Control Tower, consulte la entrada del blog Habilitar la inferencia entre regiones de Amazon Bedrock en entornos de múltiples cuentas. Esto incluye ampliar los SCP de denegación de región existentes, habilitar las regiones denegadas con SCP personalizados y utilizar Customizations for AWS Control Tower (cFCT) para implementar SCP personalizados como infraestructura como código.

El límite de solicitudes aumenta para la inferencia global entre regiones

Al utilizar perfiles de inferencia CRIS globales, puede utilizar el CRIS global de más de 20 fuentes compatibles. Regiones de AWS Como este será un límite global, las solicitudes para ver, administrar o aumentar las cuotas de los perfiles de inferencia globales entre regiones se deben realizar a través de la consola Service Quotas o la interfaz de línea de AWS comandos (AWS CLI) de la fuente solicitada. Región de AWS

Complete los siguientes pasos para solicitar un aumento del límite:

  1. Inicie sesión en la consola de Service Quotas de su AWS cuenta.

  2. En el panel de navegación, elija Servicios de AWS .

  3. En la lista de servicios, busque y elija Amazon Bedrock.

  4. En la lista de cuotas de Amazon Bedrock, utilice el filtro de búsqueda para encontrar las cuotas CRIS globales específicas. Por ejemplo:

    • Símbolos de inferencia del modelo global transregional por minuto para Anthropic Claude Sonnet 4.5 V1

  5. Seleccione la cuota que quiere aumentar.

  6. Elija Solicitud de aumento a nivel de cuenta.

  7. Introduzca el nuevo valor de cuota que desee.

  8. Elija Solicitar para enviar la solicitud.

Al calcular el aumento de cuota necesario, recuerda tener en cuenta la tasa de agotamiento, que se define como la velocidad a la que las fichas de entrada y salida se convierten en cuotas de uso simbólicas para el sistema de regulación. Los siguientes modelos tienen una tasa de agotamiento de 5 veces para las fichas de salida (1 ficha de salida consume 5 fichas de tus cuotas):

  • Claude Opus 4 antrópico

  • Soneto antrópico de Claude 4.5

  • Soneto antrópico de Claude 4

  • Soneto antrópico Claude 3.7

En todos los demás modelos, la velocidad de consumo es de 1:1 (1 token de salida consume 1 token de su cuota). En el caso de los tokens de entrada, la relación entre el token y la cuota es de 1:1. El cálculo del número total de tokens por solicitud es el siguiente:

Input token count + Cache write input tokens + (Output token count x Burndown rate)

Utilice la inferencia global entre regiones

Para utilizar la inferencia global entre regiones con el Claude Sonnet 4.5 de Anthropic, los desarrolladores deben completar los siguientes pasos clave:

  • Utilice el ID del perfil de inferencia global: al realizar llamadas a la API a Amazon Bedrock, especifique el ID del perfil de inferencia Claude Sonnet 4.5 de Anthropic global (global.anthropic.claude-sonnet-4-5-20250929-v1:0) en lugar de un ID de modelo específico. Región de AWS

  • Configure los permisos de IAM: conceda los permisos de IAM adecuados para acceder al perfil de inferencia y a las FM de su posible destino. Regiones de AWS

Se admite la inferencia global entre regiones para:

  • On-demand inferencia de modelos

  • Inferencia en lotes

  • Agentes

  • Evaluación de modelos

  • Administración de peticiones

  • Flujos rápidos

nota

El perfil de inferencia global es compatible con la inferencia de On-demand modelos, la inferencia por lotes, los agentes, la evaluación de modelos, la gestión rápida y los flujos rápidos.

Implemente la inferencia global entre regiones

Implementar la inferencia global entre regiones con el Claude Sonnet 4.5 de Anthropic es sencillo y solo requiere algunos cambios en el código de la aplicación existente. El siguiente es un ejemplo de cómo actualizar el código en Python:

import boto3 import json bedrock = boto3.client('bedrock-runtime', region_name='us-east-1') model_id = "global.anthropic.claude-sonnet-4-5-20250929-v1:0" response = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 sentences."}]}], modelId=model_id, ) print("Response:", response['output']['message']['content'][0]['text']) print("Token usage:", response['usage']) print("Total tokens:", response['usage']['totalTokens'])