As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Como a inferência funciona no Amazon Bedrock
Quando você envia uma entrada para um modelo, o modelo prevê uma provável sequência de tokens que se segue e retorna essa sequência como saída. O Amazon Bedrock oferece a capacidade de executar inferência com o modelo básico de sua escolha. Ao executar a inferência, você fornece as seguintes entradas:
-
Prompt: uma entrada fornecida ao modelo para que ele gere uma resposta. Para obter informações sobre como escrever prompts, consulte Conceitos de engenharia de prompts. Para obter informações sobre a proteção contra ataques de injeção de prompt, consulte Segurança de injeção de prompt.
-
Modelo — Você faz solicitações a um modelo para executar inferência em um prompt. O modelo escolhido também especifica um nível de taxa de transferência, que define o número e a taxa de tokens de entrada e saída que você pode processar. Você pode fazer solicitações para os seguintes tipos de modelos:
-
Modelo básico — Um modelo básico com o qual executar inferências. As solicitações são enviadas para uma única AWS região. Para o modelo IDs, consulteModelos de base compatíveis no Amazon Bedrock. Para obter mais informações sobre os modelos de base que estão disponíveis no Amazon Bedrock, consulte Informações sobre modelos de base do Amazon Bedrock.
-
Perfil de inferência — Um modelo básico para executar a inferência. As solicitações são feitas ao modelo em várias AWS regiões. Para o perfil de inferência IDs, consulteRegiões e modelos compatíveis para perfis de inferência.
nota
Os modelos diferem na disponibilidade do modelo básico e do perfil de inferência por região e método de API. Para obter mais informações, consulte Modelos de base compatíveis no Amazon Bedrock as páginas de modelos individuais na referência de modelos da Foundation.
-
Taxa de transferência provisionada — um modelo básico para o qual você comprou uma taxa de transferência dedicada. Para obter mais informações, consulte Throughput provisionado.
-
Modelo personalizado — Um modelo básico cujos pesos foram modificados por meio da personalização do modelo. Para obter mais informações, consulte Personalizar o modelo para melhorar a performance para o caso de uso.
-
-
Parâmetros de inferência: um conjunto de valores que podem ser ajustados para limitar ou influenciar a resposta do modelo. Para obter informações sobre os parâmetros de inferência, consulte Geração de resposta de influência com parâmetros de inferência. e Parâmetros de solicitação de inferência e campos de resposta para modelos de base.
Invocando modelos em diferentes regiões AWS
Ao invocar um modelo, você escolhe o Região da AWS no qual invocá-lo. As cotas para a frequência e o tamanho das solicitações que você pode fazer dependem da região. Você pode encontrar essas cotas pesquisando as seguintes cotas nas cotas de serviço do Amazon Bedrock:
-
Solicitações de inferência de modelos sob demanda por minuto para
${Model} -
InvokeModel Tokens sob demanda por minuto para
${Model}
Você também pode invocar um perfil de inferência em vez do próprio modelo básico. Um perfil de inferência define um modelo e uma ou mais regiões para as quais o perfil de inferência pode rotear solicitações de invocação do modelo. Ao invocar um perfil de inferência que inclui várias regiões, você pode aumentar sua taxa de transferência. Para obter mais informações, consulte Aumente a produtividade com inferência entre regiões. Para ver as cotas de frequência e tamanho das solicitações que você pode fazer com um perfil de inferência, pesquise as seguintes cotas nas cotas de serviço Amazon Bedrock:
-
InvokeModel Solicitações entre regiões por minuto para
${Model} -
InvokeModel Tokens entre regiões por minuto para
${Model} -
InvokeModel Solicitações globais entre regiões por minuto para
${Model} -
InvokeModel Tokens globais entre regiões por minuto para
${Model}
As solicitações feitas para uma região podem ser atendidas fora de zonas locais que compartilham a mesma região principal. Por exemplo, solicitações feitas para o Leste dos EUA (Norte da Virgínia) (us-east-1) podem ser atendidas em qualquer zona local associada a ela, como Atlanta, EUA (us-east-1-atl-2a).
O mesmo princípio se aplica ao usar a inferência entre regiões. Por exemplo, solicitações feitas para o perfil de Anthropic Claude 3 Haiku inferência dos EUA podem ser atendidas fora de qualquer zona local cuja região principal esteja nos EUA, como Seattle, EUA (us-west-2-sea-1a). Quando novas zonas locais forem adicionadas AWS, elas também serão adicionadas ao endpoint de inferência entre regiões correspondente.
Para ver uma lista dos endpoints locais e das regiões principais às quais eles estão associados, consulte Localizações de Zonas AWS Locais
Quando você invoca um perfil de inferência entre regiões no Amazon Bedrock, sua solicitação se origina de uma região de origem e é automaticamente encaminhada para uma das regiões de destino definidas nesse perfil, otimizando o desempenho. As regiões de destino para o perfil de inferência global entre regiões incluem todas as regiões comerciais.
O perfil global de inferência entre regiões para um modelo específico pode mudar com o tempo, à medida que AWS adiciona mais regiões comerciais nas quais suas solicitações podem ser processadas. No entanto, se um perfil de inferência estiver vinculado a uma região geográfica (como EUA, UE ou APAC), sua lista de regiões de destino nunca será alterada. AWS pode criar novos perfis de inferência que incorporem novas regiões. Você pode atualizar seus sistemas para usar esses perfis de inferência alterando a IDs configuração para os novos.
nota
As regiões de destino em um perfil de inferência entre regiões podem incluir regiões opcionais, que são regiões que você deve habilitar explicitamente no Conta da AWS nível da organização. Para saber mais, consulte Ativar ou desativar Regiões da AWS em sua conta. Ao usar um perfil de inferência entre regiões, sua solicitação de inferência pode ser encaminhada para qualquer uma das regiões de destino no perfil, mesmo que você não tenha optado por essas regiões em sua conta.
As políticas de controle de serviços (SCPs) e AWS Identity and Access Management (IAM) trabalham juntas para controlar onde a inferência entre regiões é permitida. Usando SCPs, você pode controlar quais regiões o Amazon Bedrock pode usar para inferência e, usando políticas do IAM, você pode definir quais usuários ou funções têm permissão para executar inferência. Se alguma região de destino em um perfil de inferência entre regiões estiver bloqueada no seu SCPs, a solicitação falhará mesmo que outras regiões continuem permitidas. Para garantir uma operação eficiente com inferência entre regiões, você pode atualizar suas políticas SCPs e as do IAM para permitir todas as ações de inferência necessárias do Amazon Bedrock (por exemplo, bedrock:InvokeModel* oubedrock:CreateModelInvocationJob) em todas as regiões de destino incluídas no perfil de inferência escolhido. Para saber mais, consulte https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/