Conceitos básicos sobre o Roteamento inteligente de prompts do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Conceitos básicos sobre o Roteamento inteligente de prompts do Amazon Bedrock

O Roteamento inteligente de prompts do Amazon Bedrock fornece um único endpoint sem servidor para rotear com eficiência as solicitações entre diferentes modelos de base dentro da mesma família de modelos. Ele pode predizer dinamicamente a qualidade da resposta de cada modelo para cada solicitação e, em seguida, encaminhar a solicitação ao modelo que oferece a melhor qualidade de resposta. Isso ajuda a otimizar a qualidade e o custo da resposta.

Regiões e modelos compatíveis com o Roteamento inteligente de prompts

O roteamento rápido inteligente pode ser usado com diferentes tipos de modelos. A lista a seguir descreve o suporte para diferentes tipos de modelos Amazon Bedrock:

  • Suporte ao modelo de região única — lista as regiões que oferecem suporte ao envio de solicitações de inferência para um modelo básico em uma AWS região. Para obter uma tabela completa dos modelos disponíveis no Amazon Bedrock, consulteModelos de base compatíveis no Amazon Bedrock.

  • Suporte ao perfil de inferência entre regiões — Lista as regiões que oferecem suporte ao uso de um perfil de inferência entre regiões, que oferece suporte ao envio de solicitações de inferência para um modelo básico em várias AWS regiões dentro de uma área geográfica. Um perfil de inferência tem um prefixo antes do ID do modelo que indica sua área geográfica (por exemplo,,us.). apac Para obter mais informações sobre os perfis de inferência disponíveis no Amazon Bedrock, consulte. Regiões e modelos que compatíveis com perfis de inferência

A tabela a seguir mostra os modelos compatíveis com o roteamento inteligente de solicitações:

Fornecedor Modelo ID do modelo Suporte ao modelo de região única Suporte ao perfil de inferência entre regiões
Amazon Nova Lite amazônia. nova-lite-v1:0

us-east-1

us-gov-west-1

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

us-east-1

us-east-2

us-west-2

Amazon Nova Pro amazônia. nova-pro-v1:0

us-east-1

us-gov-west-1

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

us-east-1

us-east-2

us-west-2

Anthropic Claude 3 Haiku anthropic.claude-3-haiku-20240307-v1:0

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

us-east-1

us-gov-west-1

us-west-2

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

us-east-1

us-east-2

us-gov-east-1

us-west-2

Anthropic Claude 3.5 Haiku anthropic.claude-3-5-haiku-20241022-v1:0

us-west-2

us-east-1

us-east-2

us-west-2

Anthropic Claude 3.5 Sonnet anthropic.claude-3-5-sonnet-20240620-v1:0

ap-northeast-1

ap-northeast-2

eu-central-1

us-east-1

us-gov-west-1

us-west-2

ap-northeast-1

ap-northeast-2

ap-south-1

ap-southeast-2

eu-central-1

eu-west-1

eu-west-3

us-east-1

us-east-2

us-gov-east-1

us-west-2

Anthropic Claude 3.5 Sonnet v2 anthropic.claude-3-5-sonnet-20241022-v2:0

ap-southeast-2

us-west-2

ap-northeast-1

ap-south-1

ap-southeast-2

eu-west-3

us-east-1

us-east-2

us-west-2

Meta Llama 3.1 70B Instruct meta.llama3-1-70 1:0 b-instruct-v

us-west-2

us-east-1

us-east-2

us-west-2

Meta Llama 3.1 8B Instruct meta.llama3-1-8 1:0 b-instruct-v

us-west-2

us-east-1

us-east-2

us-west-2

Meta Instrução Llama 3.2 11B meta.llama3-2-11 1:0 b-instruct-v N/D

us-east-1

us-east-2

us-west-2

Meta Llama 3.2 90B Instruct meta.llama3-2-90 1:0 b-instruct-v N/D

us-east-1

us-east-2

us-west-2

Meta Llama 3.3 70B Instruct meta.llama3-3-70 1:0 b-instruct-v

us-east-2

us-east-1

us-east-2

us-west-2

Benefícios

  • Qualidade e custo de resposta otimizados: os prompts são encaminhados a diferentes modelos de base para obter a melhor qualidade de resposta pelo menor custo.

  • Gerenciamento simplificado: elimina a necessidade de uma lógica complexa de orquestração.

  • Preparação para o futuro: novos modelos são incorporados à medida que se tornam disponíveis.

Roteadores de prompts padrão e configurados

Ao usar o Roteamento inteligente de prompts, você pode usar os roteadores de prompts padrão fornecidos pelo Amazon Bedrock ou configurar seus próprios roteadores de prompts.

Os roteadores de prompts padrão são sistemas de roteamento pré-configurados oferecidos pelo Amazon Bedrock. Esses roteadores vêm com configurações predefinidas e são projetados para funcionar out-of-the-box com modelos básicos específicos. Eles fornecem uma ready-to-use solução simples, sem a necessidade de definir nenhuma configuração de roteamento. Ao começar a usar o Roteamento inteligente de prompts, recomendamos que você experimente usar os roteadores padrão fornecidos pelo Amazon Bedrock. Durante a versão prévia, você pode optar por usar modelos selecionados nas famílias Anthropic e Meta.

Os roteadores de prompts configurados permitem que você defina suas próprias configurações de roteamento de acordo com suas necessidades e preferências específicas. Eles são mais adequados quando você precisa de maior controle sobre como rotear suas solicitações e quais modelos usar. Os roteadores configurados permitem a otimização com base em métricas de qualidade de resposta e casos de uso. Depois de experimentar os roteadores padrão, você pode configurar seus próprios roteadores adequados às suas aplicações, avaliar a qualidade da resposta no playground e usá-los em aplicações de produção, se atenderem aos requisitos.

Considerações e limitações

Veja a seguir considerações e limitações sobre o Roteamento inteligente de prompts do Amazon Bedrock.

  • O Roteamento inteligente de prompts é otimizado apenas para prompts em inglês.

  • O Roteamento inteligente de prompts não pode ajustar as decisões ou respostas de roteamento com base nos dados de desempenho específicos da aplicação.

  • Esse recurso nem sempre fornece o roteamento ideal para casos de uso exclusivos ou especializados. A eficácia do roteamento depende dos dados do treinamento inicial.

Critérios referentes aos roteadores de prompts e modelo de fallback

Ao configurar roteadores de prompts, você pode especificar os critérios de roteamento, que são usados para determinar qual modelo selecionar para processar uma solicitação com base na diferença de qualidade da resposta. Use esse critério para determinar quanto as respostas do modelo de fallback devem estar mais próximas das respostas dos outros modelos.

Modelos de fallback

Escolha um modelo de fallback que funcione bem para suas solicitações. Esse modelo serve como uma referência confiável. Em seguida, você pode escolher outro modelo para melhorar a precisão ou reduzir os custos em comparação com o modelo de fallback. O modelo de fallback funciona como uma âncora, e os critérios de roteamento determinam quando mudar para o outro modelo com base na diferença de qualidade.

Diferença na qualidade da resposta

A diferença na qualidade da resposta mede a disparidade entre as respostas do modelo de fallback e as dos outros modelos. Um valor menor indica que as respostas são semelhantes. Um valor maior indica uma diferença significativa entre as respostas do modelo de fallback e as dos outros modelos.

Por exemplo, uma diferença de 10% na qualidade das respostas significa que a qualidade da resposta do modelo de fallback (digamos, o Claude 3 Haiku) é de 10%. Nesse caso, o roteador mudará para outro modelo (digamos, o Claude 3 Sonnet), somente se as respostas desse modelo forem 10% melhores do que as do Claude 3 Haiku.

Como funciona o Roteamento inteligente de prompts

  1. Seleção do modelo e configuração do roteador

    Escolha a família de modelos que deseja usar com a aplicação. Se você estiver usando roteadores de prompts padrão, poderá escolher entre os modelos das famílias Anthropic ou Meta. Se você estiver usando roteadores de prompts configurados, poderá escolher entre modelos adicionais e configurar os critérios de roteamento. Para obter mais informações, consulte Quando usar o Roteamento inteligente de prompts.

  2. Análise de solicitações de entrada

    Para cada solicitação recebida, o sistema analisa o prompt para entender o respectivo conteúdo e contexto.

  3. Previsão da qualidade da resposta

    O Amazon Bedrock prevê a qualidade da resposta de cada modelo especificado na família escolhida com base no prompt. Se você configurou seu roteador de prompts, ele levará em consideração os critérios de roteamento, que é a diferença na qualidade da resposta, e encaminhará as solicitações ao modelo de fallback especificado se os critérios não forem atendidos.

  4. Seleção de modelos e encaminhamento de solicitações

    Com base na previsão da qualidade da resposta, o Amazon Bedrock escolhe dinamicamente o modelo que oferece a melhor combinação de qualidade de resposta e custo para a solicitação em questão. A solicitação é então encaminhada ao modelo escolhido para processamento.

  5. Gerenciamento de respostas

    A resposta do modelo escolhido é recuperada e exibida ao usuário. A resposta inclui informações sobre o modelo usado para processar a solicitação.

Quando usar o Roteamento inteligente de prompts

Para começar a usar o roteamento rápido inteligente, use o console ou AWS SDK do Amazon Bedrock. AWS CLI

nota

Para utilizar melhor o Roteamento inteligente de prompts, você deve analisar regularmente o desempenho para aproveitar os novos modelos. Para otimizar o uso, monitore as métricas de desempenho e custo disponíveis.

As seções a seguir mostram como usar esse recurso no console e na CLI. Depois de configurar o roteador de prompts, o Amazon Bedrock executará as etapas descritas em Como funciona o Roteamento inteligente de prompts para gerar uma resposta de um dos modelos no roteador escolhido.

console

Para usar o Roteamento inteligente de prompts no Console de gerenciamento da AWS:

  1. Acesse o hub Roteadores de prompts no console do Amazon Bedrock. Use as credenciais da AWS para fazer login no console.

  2. Escolha a família de modelos que você deseja usar. Se estiver usando o recurso pela primeira vez, você pode experimentar os roteadores de prompts padrão. Durante a versão prévia, você pode escolher modelos nas famílias Anthropic e Meta. Em seguida, abra o playground e experimente seus prompts.

    nota

    Você deve escolher exatamente dois modelos da mesma família.

  3. Depois de experimentar os roteadores padrão, você pode configurar o roteador. Você deve fornecer um nome exclusivo para o roteador e uma descrição opcional.

  4. Defina as regras de roteamento para rotear os prompts para modelos diferentes. Especifique os modelos de roteamento, os critérios de roteamento e um modelo alternativo a ser usado caso os critérios de roteamento não sejam atendidos.

  5. Agora você pode abrir o playground e experimentar diferentes prompts para monitorar o desempenho do roteador de prompts. Ao analisar como os prompts estão sendo roteados e o desempenho de cada modelo, você pode ajustar os critérios e modelos de roteamento conforme necessário para otimizar o desempenho e o custo.

API

Para usar o Roteamento inteligente de prompts usando a AWS CLI:

  1. Depois de experimentar os roteadores de prompts padrão, você pode criar um roteador capaz de lidar com o Roteamento inteligente de prompts usando a API CreatePromptRouter ou o comando create-prompt-router da CLI.

    O comando a seguir mostra um exemplo de criação do roteador de prompts, em que:

    • <router-name>é um nome exclusivo para seu roteador.

    • <region>é Região da AWS onde você deseja criar o roteador.

    • <modelA>e <modelB> são os modelos a serem escolhidos para roteamento. Por exemplo, .anthropic.claude-3-5-sonnet-20240620-v1:0

    aws bedrock create-prompt-router \ --prompt-router-name <router-name> \ --models '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelA>"}]' \ --fallback-model '[{"modelArn": "arn:aws:bedrock:<region>::foundation-model/<modelB>"}]' \ --routing-criteria '{"responseQualityDifference": 0.5}'
  2. Envie os prompts ao roteador inteligente de prompts usando a AWS CLI. O roteador predirá a qualidade da resposta de cada modelo e encaminhará a solicitação ao modelo que oferece a melhor qualidade de resposta.

  3. Analise a resposta à sua solicitação. Ela conterá informações sobre o modelo usado e os critérios de roteamento.

  4. Ao trabalhar com roteadores de prompts, também é possível usar estas operações de API adicionais: