Configurar um recurso de invocação de modelo usando perfis de inferência
Perfis de inferência são um recurso no Amazon Bedrock que define um modelo e uma ou mais regiões para as quais o perfil de inferência pode encaminhar solicitações de invocação de modelo. Você pode usar perfis de inferência para as seguintes tarefas:
-
Monitorar métricas de uso: configure logs do CloudWatch e envie solicitações de invocação de modelo com um perfil de inferência de aplicação para coletar métricas de uso para invocação de modelo. Você pode examinar essas métricas ao visualizar informações sobre o perfil de inferência e usá-las para fundamentar suas decisões. Para ter mais informações sobre como configurar logs do CloudWatch, consulte Monitorar a invocação do modelo usando o CloudWatch Logs e o Amazon S3.
-
Usar tags para monitorar custos: anexe tags a um perfil de inferência de aplicação para rastrear os custos ao enviar solicitações de invocação de modelo sob demanda. Para ter mais informações sobre como usar tags para alocação de custos, consulte Organizar e rastrear custos usando tags de alocação de custos da AWS no “Guia do usuário do AWS Billing”.
-
Inferência entre regiões: aumente o throughput usando um perfil de inferência que inclua várias Regiões da AWS. O perfil de inferência distribuirá as solicitações de invocação do modelo nessas regiões para aumentar o throughput e o desempenho. Para ter mais informações sobre inferência entre regiões, consulte Aumentar o throughput com inferência entre regiões.
O Amazon Bedrock oferece os seguintes tipos de perfil de inferência:
-
Perfis de inferência entre regiões (definidos pelo sistema): perfis de inferência predefinidos no Amazon Bedrock que incluem várias regiões para às quais as solicitações de um modelo podem ser encaminhadas.
-
Perfis de inferência de aplicação: perfis de inferência que um usuário cria para monitorar custos e usar modelos. É possível criar um perfil de inferência que roteie as solicitações de invocação de modelo para uma ou várias regiões:
-
Para criar um perfil de inferência que rastreie os custos e o uso de um modelo em uma região, especifique o modelo de base na região para a qual você deseja que o perfil de inferência encaminhe as solicitações.
-
Para criar um perfil de inferência que rastreie os custos e o uso de um modelo em várias regiões, especifique o perfil de inferência entre regiões (definido pelo sistema) que defina o modelo e as regiões para as quais você deseja que o perfil de inferência encaminhe as solicitações.
-
É possível usar perfis de inferência com os seguintes recursos para encaminhar solicitações a várias regiões e monitorar o uso e o custo das solicitações de invocação feitas com esses recursos:
-
Inferência do modelo: use um perfil de inferência ao executar a invocação do modelo escolhendo um perfil de inferência em um playground no console do Amazon Bedrock ou especificando o ARN do perfil de inferência ao chamar as operações InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream. Para obter mais informações, consulte Envie prompts e gere respostas com a inferência de modelo.
-
Incorporação de vetores e geração de respostas da base de conhecimento: use um perfil de inferência ao gerar uma resposta depois de consultar uma base de conhecimento ou ao analisar informações não textuais em uma fonte de dados. Para obter mais informações, consulte Testar a base de conhecimento com consultas e respostas e Opções de análise para a fonte de dados.
-
Avaliação de modelo: é possível enviar um perfil de inferência como um modelo para avaliação ao enviar um trabalho de avaliação de modelo. Para obter mais informações, consulte Avaliar o desempenho dos recursos do Amazon Bedrock.
-
Gerenciamento de prompts: é possível usar um perfil de inferência entre regiões ao gerar uma resposta a um prompt criado por você no Gerenciamento de Prompts. Para obter mais informações, consulte Construir e armazenar prompts reutilizáveis com o Gerenciamento de Prompts do Amazon Bedrock.
-
Fluxos: é possível usar um perfil de inferência entre regiões ao gerar uma resposta a um prompt definido em linha em um nó de prompt em um fluxo. Para obter mais informações, consulte Criar um fluxo de trabalho de IA generativa completo com o recurso Fluxos do Amazon Bedrock.
O preço de uso de um perfil de inferência é calculado com base no preço do modelo na região na qual você chama o perfil de inferência. Para obter mais informações sobre preços, consulte Preços do Amazon Bedrock
Para obter mais detalhes sobre o throughput que um perfil de inferência entre regiões pode oferecer, consulte Aumentar o throughput com inferência entre regiões.