As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Conceitos básicos sobre o Roteamento inteligente de prompts do Amazon Bedrock
O Roteamento inteligente de prompts do Amazon Bedrock fornece um único endpoint sem servidor para rotear com eficiência as solicitações entre diferentes modelos de base dentro da mesma família de modelos. Ele pode predizer dinamicamente a qualidade da resposta de cada modelo para cada solicitação e, em seguida, encaminhar a solicitação ao modelo que oferece a melhor qualidade de resposta. Isso ajuda a otimizar a qualidade e o custo da resposta.
Tópicos
Regiões e modelos compatíveis com o Roteamento inteligente de prompts
O roteamento rápido inteligente pode ser usado com diferentes tipos de modelos. A lista a seguir descreve o suporte para diferentes tipos de modelos Amazon Bedrock:
Suporte ao modelo de região única — lista as regiões que oferecem suporte ao envio de solicitações de inferência para um modelo básico em uma AWS região. Para obter uma tabela completa dos modelos disponíveis no Amazon Bedrock, consulteModelos de base compatíveis no Amazon Bedrock.
Suporte ao perfil de inferência entre regiões — Lista as regiões que oferecem suporte ao uso de um perfil de inferência entre regiões, que oferece suporte ao envio de solicitações de inferência para um modelo básico em várias AWS regiões dentro de uma área geográfica. Um perfil de inferência tem um prefixo antes do ID do modelo que indica sua área geográfica (por exemplo,,
us.).apacPara obter mais informações sobre os perfis de inferência disponíveis no Amazon Bedrock, consulte. Regiões e modelos que compatíveis com perfis de inferência
A tabela a seguir mostra os modelos compatíveis com o roteamento inteligente de solicitações:
| Fornecedor | Modelo | ID do modelo | Suporte ao modelo de região única | Suporte ao perfil de inferência entre regiões |
|---|---|---|---|---|
| Amazon | Nova Lite | amazônia. nova-lite-v1:0 |
us-east-1 us-gov-west-1 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2 |
| Amazon | Nova Pro | amazônia. nova-pro-v1:0 |
us-east-1 us-gov-west-1 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-west-2 |
| Anthropic | Claude 3 Haiku | anthropic.claude-3-haiku-20240307-v1:0 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-gov-west-1 us-west-2 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2 |
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Anthropic | Claude 3.5 Sonnet | anthropic.claude-3-5-sonnet-20240620-v1:0 |
ap-northeast-1 ap-northeast-2 eu-central-1 us-east-1 us-gov-west-1 us-west-2 |
ap-northeast-1 ap-northeast-2 ap-south-1 ap-southeast-2 eu-central-1 eu-west-1 eu-west-3 us-east-1 us-east-2 us-gov-east-1 us-west-2 |
| Anthropic | Claude 3.5 Sonnet v2 | anthropic.claude-3-5-sonnet-20241022-v2:0 |
ap-southeast-2 us-west-2 |
ap-northeast-1 ap-south-1 ap-southeast-2 eu-west-3 us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70 1:0 b-instruct-v |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.1 8B Instruct | meta.llama3-1-8 1:0 b-instruct-v |
us-west-2 |
us-east-1 us-east-2 us-west-2 |
| Meta | Instrução Llama 3.2 11B | meta.llama3-2-11 1:0 b-instruct-v | N/D |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.2 90B Instruct | meta.llama3-2-90 1:0 b-instruct-v | N/D |
us-east-1 us-east-2 us-west-2 |
| Meta | Llama 3.3 70B Instruct | meta.llama3-3-70 1:0 b-instruct-v |
us-east-2 |
us-east-1 us-east-2 us-west-2 |
Benefícios
-
Qualidade e custo de resposta otimizados: os prompts são encaminhados a diferentes modelos de base para obter a melhor qualidade de resposta pelo menor custo.
-
Gerenciamento simplificado: elimina a necessidade de uma lógica complexa de orquestração.
-
Preparação para o futuro: novos modelos são incorporados à medida que se tornam disponíveis.
Roteadores de prompts padrão e configurados
Ao usar o Roteamento inteligente de prompts, você pode usar os roteadores de prompts padrão fornecidos pelo Amazon Bedrock ou configurar seus próprios roteadores de prompts.
Os roteadores de prompts padrão são sistemas de roteamento pré-configurados oferecidos pelo Amazon Bedrock. Esses roteadores vêm com configurações predefinidas e são projetados para funcionar out-of-the-box com modelos básicos específicos. Eles fornecem uma ready-to-use solução simples, sem a necessidade de definir nenhuma configuração de roteamento. Ao começar a usar o Roteamento inteligente de prompts, recomendamos que você experimente usar os roteadores padrão fornecidos pelo Amazon Bedrock. Durante a versão prévia, você pode optar por usar modelos selecionados nas famílias Anthropic e Meta.
Os roteadores de prompts configurados permitem que você defina suas próprias configurações de roteamento de acordo com suas necessidades e preferências específicas. Eles são mais adequados quando você precisa de maior controle sobre como rotear suas solicitações e quais modelos usar. Os roteadores configurados permitem a otimização com base em métricas de qualidade de resposta e casos de uso. Depois de experimentar os roteadores padrão, você pode configurar seus próprios roteadores adequados às suas aplicações, avaliar a qualidade da resposta no playground e usá-los em aplicações de produção, se atenderem aos requisitos.
Considerações e limitações
Veja a seguir considerações e limitações sobre o Roteamento inteligente de prompts do Amazon Bedrock.
-
O Roteamento inteligente de prompts é otimizado apenas para prompts em inglês.
-
O Roteamento inteligente de prompts não pode ajustar as decisões ou respostas de roteamento com base nos dados de desempenho específicos da aplicação.
-
Esse recurso nem sempre fornece o roteamento ideal para casos de uso exclusivos ou especializados. A eficácia do roteamento depende dos dados do treinamento inicial.
Critérios referentes aos roteadores de prompts e modelo de fallback
Ao configurar roteadores de prompts, você pode especificar os critérios de roteamento, que são usados para determinar qual modelo selecionar para processar uma solicitação com base na diferença de qualidade da resposta. Use esse critério para determinar quanto as respostas do modelo de fallback devem estar mais próximas das respostas dos outros modelos.
Modelos de fallback
Escolha um modelo de fallback que funcione bem para suas solicitações. Esse modelo serve como uma referência confiável. Em seguida, você pode escolher outro modelo para melhorar a precisão ou reduzir os custos em comparação com o modelo de fallback. O modelo de fallback funciona como uma âncora, e os critérios de roteamento determinam quando mudar para o outro modelo com base na diferença de qualidade.
Diferença na qualidade da resposta
A diferença na qualidade da resposta mede a disparidade entre as respostas do modelo de fallback e as dos outros modelos. Um valor menor indica que as respostas são semelhantes. Um valor maior indica uma diferença significativa entre as respostas do modelo de fallback e as dos outros modelos.
Por exemplo, uma diferença de 10% na qualidade das respostas significa que a qualidade da resposta do modelo de fallback (digamos, o Claude 3 Haiku) é de 10%. Nesse caso, o roteador mudará para outro modelo (digamos, o Claude 3 Sonnet), somente se as respostas desse modelo forem 10% melhores do que as do Claude 3 Haiku.
Como funciona o Roteamento inteligente de prompts
-
Seleção do modelo e configuração do roteador
Escolha a família de modelos que deseja usar com a aplicação. Se você estiver usando roteadores de prompts padrão, poderá escolher entre os modelos das famílias Anthropic ou Meta. Se você estiver usando roteadores de prompts configurados, poderá escolher entre modelos adicionais e configurar os critérios de roteamento. Para obter mais informações, consulte Quando usar o Roteamento inteligente de prompts.
-
Análise de solicitações de entrada
Para cada solicitação recebida, o sistema analisa o prompt para entender o respectivo conteúdo e contexto.
-
Previsão da qualidade da resposta
O Amazon Bedrock prevê a qualidade da resposta de cada modelo especificado na família escolhida com base no prompt. Se você configurou seu roteador de prompts, ele levará em consideração os critérios de roteamento, que é a diferença na qualidade da resposta, e encaminhará as solicitações ao modelo de fallback especificado se os critérios não forem atendidos.
-
Seleção de modelos e encaminhamento de solicitações
Com base na previsão da qualidade da resposta, o Amazon Bedrock escolhe dinamicamente o modelo que oferece a melhor combinação de qualidade de resposta e custo para a solicitação em questão. A solicitação é então encaminhada ao modelo escolhido para processamento.
-
Gerenciamento de respostas
A resposta do modelo escolhido é recuperada e exibida ao usuário. A resposta inclui informações sobre o modelo usado para processar a solicitação.
Quando usar o Roteamento inteligente de prompts
Para começar a usar o roteamento rápido inteligente, use o console ou AWS SDK do Amazon Bedrock. AWS CLI
nota
Para utilizar melhor o Roteamento inteligente de prompts, você deve analisar regularmente o desempenho para aproveitar os novos modelos. Para otimizar o uso, monitore as métricas de desempenho e custo disponíveis.
As seções a seguir mostram como usar esse recurso no console e na CLI. Depois de configurar o roteador de prompts, o Amazon Bedrock executará as etapas descritas em Como funciona o Roteamento inteligente de prompts para gerar uma resposta de um dos modelos no roteador escolhido.