As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Understanding intelligent prompt routing in Amazon Bedrock
O roteamento rápido inteligente do Amazon Bedrock fornece um único endpoint sem servidor para rotear com eficiência as solicitações entre diferentes modelos fundamentais dentro da mesma família de modelos. Ele pode prever dinamicamente a qualidade da resposta de cada modelo para cada solicitação e, em seguida, encaminhar a solicitação para o modelo com a melhor qualidade de resposta. Isso ajuda a otimizar a qualidade e o custo da resposta.
Tópicos
Regiões e modelos compatíveis para roteamento rápido inteligente
O roteamento inteligente de solicitações é suportado pelos seguintes modelos:
| Provedor | Modelo | Regiões que apoiam o modelo de fundação | Regiões que suportam o perfil de inferência |
|---|---|---|---|
| Amazon | Nova Lite |
us-east-1 us-gov-west-1 |
us-east-1 us-east-2 us-west-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Amazon | Nova Pro |
us-east-1 us-gov-west-1 |
us-east-1 us-east-2 us-west-2 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Anthropic | Claude 3.5 Haiku |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Anthropic | Claude 3.5 Sonnet |
us-east-1 us-west-2 us-gov-west-1 ap-northeast-1 ap-northeast-2 eu-central-1 |
us-east-1 us-east-2 us-west-2 us-gov-east-1 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Anthropic | Claude 3.5 Sonnet v2 |
us-west-2 ap-southeast-2 |
us-east-1 us-east-2 us-west-2 ap-northeast-1 ap-south-1 ap-southeast-2 eu-west-3 |
| Anthropic | Claude 3 Haiku |
us-east-1 us-west-2 us-gov-west-1 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
us-east-1 us-east-2 us-west-2 us-gov-east-1 ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 |
| Meta | Llama 3.1 70B Instruct |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.1 8B Instruct |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.2 11B Instruct |
N/A |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.2 90B Instruct |
N/A |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.3 70B Instruct |
us-east-2 |
us-east-1 us-east-2 us-west-2 |
Benefícios
-
Qualidade e custo de resposta otimizados: encaminha solicitações para diferentes modelos fundamentais para obter a melhor qualidade de resposta com o menor custo.
-
Gerenciamento simplificado: elimina a necessidade de uma lógica complexa de orquestração.
-
Preparado para o futuro: incorpora novos modelos à medida que eles se tornam disponíveis.
Roteadores de prompts padrão e configurados
Ao usar o roteamento inteligente de prompts, você pode usar os roteadores de prompts padrão fornecidos pelo Amazon Bedrock ou configurar seus próprios roteadores de prompts.
Os roteadores de prompts padrão são sistemas de roteamento pré-configurados oferecidos pelo Amazon Bedrock. Esses roteadores vêm com configurações predefinidas e são projetados para funcionar out-of-the-box com modelos básicos específicos. Eles fornecem uma ready-to-use solução simples, sem a necessidade de definir nenhuma configuração de roteamento. Ao começar com o roteamento rápido inteligente, recomendamos que você experimente usar os roteadores padrão fornecidos pelo Amazon Bedrock. Durante a pré-visualização, você pode optar por usar modelos selecionados nas famílias Anthropic e Meta.
Os roteadores de prompt configurados permitem que você defina suas próprias configurações de roteamento adaptadas às necessidades e preferências específicas. Eles são mais adequados quando você precisa de mais controle sobre como encaminhar suas solicitações e quais modelos usar. Os roteadores configurados permitem a otimização com base em métricas de qualidade de resposta e casos de uso. Depois de experimentar os roteadores padrão, você pode configurar seus próprios roteadores adequados aos seus aplicativos, avaliar a qualidade da resposta no playground e usá-los em aplicativos de produção, se atenderem aos requisitos.
Considerações e limitações
A seguir estão as considerações e limitações do roteamento rápido inteligente no Amazon Bedrock.
-
O roteamento inteligente de solicitações é otimizado apenas para solicitações em inglês.
-
O roteamento rápido inteligente não pode ajustar as decisões ou respostas de roteamento com base nos dados de desempenho específicos do aplicativo.
-
O roteamento rápido inteligente nem sempre fornece o roteamento ideal para casos de uso exclusivos ou especializados. A eficácia do roteamento depende dos dados do treinamento inicial.
Critérios de roteador imediato e modelo de fallback
Ao configurar seus roteadores de prompt, você pode especificar os critérios de roteamento, que são usados para determinar qual modelo selecionar para processar uma solicitação com base na diferença de qualidade da resposta. Use esse critério para determinar quanto as respostas do modelo de fallback devem estar mais próximas das respostas dos outros modelos.
Modelos de fallback
Escolha um modelo de fallback que funcione bem para suas solicitações. Esse modelo serve como uma referência confiável. Em seguida, você pode escolher outro modelo para melhorar a precisão ou reduzir os custos em comparação com o modelo de fallback. O modelo alternativo atua como uma âncora, e os critérios de roteamento determinam quando mudar para o outro modelo com base na diferença de qualidade da resposta.
Diferença na qualidade da resposta
A diferença na qualidade da resposta mede a disparidade entre as respostas do modelo de fallback e as dos outros modelos. Um valor menor indica que as respostas são semelhantes. Um valor mais alto indica uma diferença significativa nas respostas entre o modelo alternativo e os outros modelos.
Por exemplo, uma diferença de 10% na qualidade das respostas significa que a qualidade da resposta do modelo de fallback (digamos, o Claude 3 Haiku) é de 10%. Nesse caso, o roteador mudará para outro modelo (digamos, o Claude 3 Sonnet), somente se as respostas desse modelo forem 10% melhores do que as do Claude Haiku 3.
Como funciona o roteamento rápido inteligente
-
Seleção do modelo e configuração do roteador
Escolha a família de modelos que você deseja usar para seu aplicativo. Se você estiver usando roteadores de prompt padrão, poderá escolher entre os modelos das famílias Anthropic ou Meta. Se você estiver usando roteadores de prompt configurados, poderá escolher entre modelos adicionais e configurar os critérios de roteamento. Para obter mais informações, consulte Como usar o roteamento rápido inteligente.
-
Análise de solicitações recebidas
Para cada solicitação recebida, o sistema analisa a solicitação para entender seu conteúdo e contexto.
-
Previsão da qualidade da resposta
O Amazon Bedrock prevê a qualidade da resposta de cada modelo especificado na família escolhida com base na solicitação. Se você configurou seu roteador de prompt, ele leva em consideração os critérios de roteamento, que é a diferença na qualidade da resposta, e encaminha as solicitações para o modelo de fallback especificado se os critérios não forem atendidos.
-
Seleção de modelos e encaminhamento de solicitações
Com base na previsão da qualidade da resposta, o Amazon Bedrock escolhe dinamicamente o modelo que oferece a melhor combinação de qualidade de resposta e custo para a solicitação específica. A solicitação é então encaminhada para o modelo escolhido para processamento.
-
Gerenciamento de respostas
A resposta do modelo escolhido é recuperada e devolvida ao usuário. A resposta inclui informações sobre o modelo usado para processar a solicitação.
Como usar o roteamento rápido inteligente
Para começar a usar o roteamento rápido inteligente, use o console ou AWS SDK do Amazon Bedrock. AWS CLI
nota
Para melhor utilizar o roteamento rápido inteligente, você deve revisar regularmente o desempenho para aproveitar os novos modelos. Para otimizar seu uso, monitore as métricas de desempenho e custo disponíveis.
As seções a seguir mostram como usar esse recurso no console e na CLI. Depois de configurar seu roteador de prompt, o Amazon Bedrock executará as etapas descritas em Como funciona o roteamento rápido inteligente para gerar uma resposta de um dos modelos no roteador escolhido.