Invocación de modelos en diferentes regiones de AWS

Cómo funciona la inferencia en Amazon Bedrock

Cuando envía una entrada a un modelo, el modelo predice una secuencia probable de tokens siguiente y devuelve esa secuencia como salida. Amazon Bedrock le ofrece la capacidad de ejecutar inferencias con el modelo fundacional que elija. Para ejecutar una inferencia, proporcione las siguientes entradas:

Petición: una entrada que se proporciona al modelo para que genere una respuesta. Para obtener información sobre la escritura de peticiones, consulte Conceptos de ingeniería de peticiones. Para obtener más información sobre la protección contra los ataques de inyección de peticiones, consulte Seguridad de la inyección de peticiones.
Modelo: realiza solicitudes a un modelo para ejecutar la inferencia en una petición. El modelo que elija también especifica un nivel de rendimiento, que define el número y la velocidad de los tokens de entrada y salida que puede procesar. Puede realizar solicitudes a los siguientes tipos de modelos:
- Modelo base: modelo fundacional con el que ejecutar inferencias. Las solicitudes se envían a una sola región de AWS. Para ver los ID de los modelos, consulte Modelos fundacionales compatibles en Amazon Bedrock. Para obtener más información sobre los modelos fundacionales disponibles en Amazon Bedrock, consulte Información del modelo fundacional de Amazon Bedrock.
- Perfil de inferencia: modelo fundacional con el que se ejecuta la inferencia. Las solicitudes al modelo se realizan en varias regiones de AWS. Para ver los ID de los perfiles de inferencia, consulte Regiones y modelos compatibles con los perfiles de inferencia.
  
  nota
  Los modelos difieren en la disponibilidad del modelo base y del perfil de inferencia según la región y el método de API. Para obtener más información, consulte Modelos fundacionales compatibles en Amazon Bedrock y las páginas de los distintos modelos en la Referencia de modelos fundacionales.
- Rendimiento aprovisionado: un modelo fundacional para el que ha adquirido rendimiento dedicado. Para obtener más información, consulte Aumento de la capacidad de invocación de modelos con el rendimiento aprovisionado en Amazon Bedrock
- Modelo personalizado: un modelo fundacional cuyas ponderaciones se han modificado mediante la personalización del modelo. Para obtener más información, consulte Personalización del modelo para mejorar su rendimiento según su caso de uso.
Parámetros de inferencia: conjunto de valores que se pueden ajustar para limitar o influir en la respuesta del modelo. Para obtener más información acerca de los parámetros de inferencia, consulte Influencia sobre la generación de respuestas con parámetros de inferencia y Parámetros de solicitud de inferencia y campos de respuesta para los modelos fundacionales.

Invocación de modelos en diferentes regiones de AWS

Cuando se invoca un modelo, se elige la Región de AWS en el que se va a invocar. Las cuotas de frecuencia y el tamaño de las solicitudes que puede realizar dependen de la región. Puede buscar estas cuotas en Cuotas de servicio de Amazon Bedrock:

Solicitudes de inferencia de modelos bajo demanda por minuto para ${Model}
Tokens de InvokeModel bajo demanda por minuto para ${Model}

También puede invocar un perfil de inferencia en lugar del propio modelo fundacional. Un perfil de inferencia define un modelo y una o más regiones a las que puede enrutar las solicitudes de invocación del modelo. Al invocar un perfil de inferencia que incluye varias regiones, puede aumentar el rendimiento. Para obtener más información, consulte Aumento del rendimiento con la inferencia entre regiones. Para ver las cuotas de frecuencia y el tamaño de las solicitudes que puede realizar con un perfil de inferencia, busque las siguientes cuotas en Cuotas de servicio de Amazon Bedrock:

Solicitudes de InvokeModel por minuto entre regiones para ${Model}
Tokens de InvokeModel por minuto entre regiones para ${Model}
Solicitudes de InvokeModel por minuto entre regiones globales para ${Model}
Tokens de InvokeModel por minuto entre regiones globales para ${Model}

Las solicitudes realizadas a una región pueden atenderse desde zonas locales que comparten la misma región principal. Por ejemplo, las solicitudes realizadas a Este de EE. UU. (Norte de Virginia) (us-east-1) pueden atenderse desde cualquier zona local asociada a ella, como Atlanta, EE. UU. (us-east-1-atl-2a).

El mismo principio se aplica cuando se utiliza la inferencia entre regiones. Por ejemplo, las solicitudes realizadas al perfil de inferencia de US Anthropic Claude 3 Haiku pueden atenderse desde cualquier zona local cuya región principal esté en EE. UU., como Seattle, EE. UU. (us-west-2-sea-1a). Cuando se añadan nuevas zonas locales a AWS, también se añadirán al punto de conexión de inferencia entre regiones correspondiente.

Para ver una lista de los puntos de conexión locales y las regiones principales a las que están asociados, consulte Ubicaciones de zonas locales de AWS.

Cuando invoca un perfil de inferencia entre regiones en Amazon Bedrock, su solicitud se origina en una región de origen y se enruta automáticamente a una de las regiones de destino definidas en ese perfil, lo que optimiza el rendimiento. Las regiones de destino de los perfiles de inferencia global entre regiones incluyen todas las regiones comerciales.

El perfil de inferencia global entre regiones de un modelo específico puede cambiar con el tiempo, ya que AWS añade más regiones comerciales en las que se pueden procesar sus solicitudes. Sin embargo, si un perfil de inferencia está vinculado a una región geográfica (como EE. UU., la UE o APAC), su lista de regiones de destino nunca cambiará. AWS podría crear nuevos perfiles de inferencia que incorporen nuevas regiones. Puede actualizar sus sistemas para usar estos perfiles de inferencia cambiando los ID de su configuración por otros nuevos.

nota

Las regiones de destino de un perfil de inferencia entre regiones pueden incluir regiones opcionales, que son regiones que debe habilitar de forma explícita en el nivel de Cuenta de AWS o de organización. Para obtener más información, consulte Activación o desactivación de Regiones de AWS en su cuenta. Si utiliza un perfil de inferencia entre regiones, su solicitud de inferencia se puede enrutar a cualquiera de las regiones de destino del perfil, incluso si no ha optado por utilizar dichas regiones en su cuenta.

Las políticas de control de servicio (SCP) y las políticas de AWS Identity and Access Management (IAM) funcionan conjuntamente para controlar dónde se permite la inferencia entre regiones. Con las SCP, puede controlar qué regiones puede usar Amazon Bedrock para la inferencia y, con las políticas de IAM, puede definir qué usuarios o roles tienen permiso para ejecutar la inferencia. Si alguna región de destino de un perfil de inferencia entre regiones está bloqueada en sus SCP, la solicitud fallará aunque se permita el acceso a otras regiones. Para garantizar un funcionamiento eficiente con la inferencia entre regiones, puede actualizar sus políticas de SCP e IAM para permitir todas las acciones de inferencia requeridas de Amazon Bedrock (por ejemplo, bedrock:InvokeModel* o bedrock:CreateModelInvocationJob) en todas las regiones de destino incluidas en el perfil de inferencia elegido. Para obtener más información, consulte https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/Activación de la inferencia entre regiones de Amazon Bedrock en entornos de varias cuentas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Diferentes métodos de inferencia

Parámetros de inferencia