Invocar modelos em diferentes regiões da AWS

Como a inferência funciona no Amazon Bedrock

Ao enviar uma entrada a um modelo, o modelo prediz uma provável sequência de tokens que se segue e exibe essa sequência como saída. O Amazon Bedrock oferece a capacidade de executar inferência com o modelo de base de sua escolha. Ao executar a inferência, você fornece as seguintes entradas:

Prompt: uma entrada fornecida ao modelo para que ele gere uma resposta. Para obter informações sobre como escrever prompts, consulte Conceitos de engenharia de prompts. Para obter informações sobre a proteção contra ataques de injeção de prompt, consulte Segurança de injeção de prompt.
Modelo: você faz solicitações a um modelo para executar a inferência em um prompt. O modelo escolhido também especifica um nível de throughput, que define o número e a taxa de tokens de entrada e saída que é possível processar. É possível fazer solicitações aos tipos de modelo a seguir:
- Modelo básico: um modelo de base com o qual executar a inferência. As solicitações são enviadas a uma única região da AWS. Para obter IDs de modelo, consulte Modelos de base compatíveis no Amazon Bedrock. Para obter mais informações sobre os modelos de base que estão disponíveis no Amazon Bedrock, consulte Informações sobre modelos de base do Amazon Bedrock.
- Perfil de inferência: um modelo de base com o qual executar a inferência. As solicitações são feitas ao modelo em várias regiões da AWS. Para obter IDs de perfil de inferência, consulte Regiões e modelos que compatíveis com perfis de inferência.
  
  nota
  Os modelos diferem com em disponibilidade de modelo de base e perfil de inferência por região e por método de API. Para ter mais informações, consulte Modelos de base compatíveis no Amazon Bedrock e as páginas dos modelos individuais em Informações sobre modelos de base.
- Throughput provisionado: um modelo de base para o qual você comprou throughput dedicado. Para obter mais informações, consulte Aumentar a capacidade de invocação do modelo com throughput provisionado no Amazon Bedrock.
- Modelo personalizado: um modelo de base cujos pesos foram modificados por meio da personalização do modelo. Para obter mais informações, consulte Personalizar o modelo para melhorar a performance para o caso de uso.
Parâmetros de inferência: um conjunto de valores que podem ser ajustados para limitar ou influenciar a resposta do modelo. Para obter informações sobre os parâmetros de inferência, consulte Geração de resposta de influência com parâmetros de inferência e Parâmetros de solicitação de inferência e campos de resposta para modelos de base.

Invocar modelos em diferentes regiões da AWS

Ao invocar um modelo, você escolhe a Região da AWS na qual invocá-lo. As cotas referentes à frequência e ao tamanho das solicitações que você pode fazer dependem da região. Você pode encontrar essas cotas pesquisando as seguintes cotas em Cotas de serviço do Amazon Bedrock:

Solicitações de inferência do modelo sob demanda por minuto para ${Model}
Tokens InvokeModel sob demanda por minuto para ${Model}

Também é possível invocar um perfil de inferência em vez do próprio modelo de base. Um perfil de inferência define um modelo e uma ou mais regiões para as quais ele pode encaminhar solicitações de invocação de modelo. Ao invocar um perfil de inferência que inclui várias regiões, é possível aumentar o throughput. Para obter mais informações, consulte Aumentar o throughput com inferência entre regiões. Para ver as cotas de frequência e tamanho das solicitações que você pode fazer com um perfil de inferência, pesquise as seguintes cotas em Cotas de serviço do Amazon Bedrock:

Solicitações InvokeModel entre regiões por minuto para ${Model}
Tokens InvokeModel entre regiões por minuto para ${Model}
Solicitações InvokeModel entre regiões por minuto para ${Model}
Tokens InvokeModel entre regiões por minuto para ${Model}

As solicitações feitas a uma região podem ser atendidas fora de zonas locais que compartilhem a mesma região principal. Por exemplo, solicitações feitas à região Leste dos EUA (Norte da Virgínia) (us-east-1) podem ser atendidas em qualquer zona local associada a ela, como Atlanta, EUA (us-east-1-atl-2a).

O mesmo princípio se aplica ao usar a inferência entre regiões. Por exemplo, solicitações feitas ao perfil de inferência do Claude 3 Haiku da Anthropic nos EUA podem ser atendidas fora de qualquer zona local cuja região principal esteja nos EUA, como Seattle, EUA (us-west-2-sea-1a). Quando novas zonas locais forem adicionadas à AWS. Elas também serão adicionadas ao endpoint de inferência entre regiões correspondente.

Para ver uma lista dos endpoints locais e das regiões principais às quais eles estão associados, consulte Localizações de zonas locais da AWS.

Quando você invoca um perfil de inferência entre regiões no Amazon Bedrock, sua solicitação se origina de uma região de origem e é automaticamente encaminhada a uma das regiões de destino definidas nesse perfil, otimizando o desempenho. As regiões de destino para o perfil de inferência global entre regiões incluem todas as regiões comerciais.

O perfil de inferência global entre regiões para um modelo específico pode mudar com o tempo, à medida que a AWS adiciona mais regiões comerciais nas quais suas solicitações podem ser processadas. No entanto, se um perfil de inferência estiver vinculado a uma área geográfica (como EUA, UE ou APAC), a respectiva lista de regiões de destino nunca será alterada. A AWS pode criar perfis de inferência que incorporem novas regiões. É possível atualizar seus sistemas para usar esses perfis de inferência alterando os IDs em sua configuração para os novos.

nota

As regiões de destino em um perfil de inferência entre regiões podem incluir regiões de aceitação, que são regiões que você deve habilitar explicitamente na Conta da AWS ou no nível da organização. Para saber mais, consulte Habilitar ou desabilitar Regiões da AWS em sua conta. Ao usar um perfil de inferência entre regiões, sua solicitação de inferência pode ser encaminhada a qualquer uma das regiões de destino no perfil, mesmo que você não tenha optado por essas regiões em sua conta.

As políticas de controle de serviços (SCPs) e as políticas do AWS Identity and Access Management (IAM) funcionam juntas para controlar onde a inferência entre regiões é permitida. Usando SCPs, você pode controlar quais regiões o Amazon Bedrock pode usar para inferência e, usando políticas do IAM, você pode definir quais usuários ou perfis têm permissão para executar inferências. Se alguma região de destino em um perfil de inferência entre regiões estiver bloqueada em suas SCPs, a solicitação falhará mesmo que a permissão de outras regiões se mantenha. Para garantir uma operação eficiente com a inferência entre regiões, você pode atualizar suas SCPs e as políticas do IAM para permitir todas as ações de inferência necessárias do Amazon Bedrock (por exemplo, bedrock:InvokeModel* ou bedrock:CreateModelInvocationJob) em todas as regiões de destino incluídas no perfil de inferência escolhido. Para saber mais, consulte https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/Enabling Amazon Bedrock cross-Region inference in multi-account environments.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Diferentes métodos de inferência

Parâmetros de inferência