Avaliar o desempenho dos recursos do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avaliar o desempenho dos recursos do Amazon Bedrock

Use as avaliações do Amazon Bedrock para avaliar o desempenho e a eficácia dos modelos e bases de conhecimento do Amazon Bedrock, bem como dos modelos e das fontes de geração aumentada via recuperação (RAG) fora do Amazon Bedrock. O Amazon Bedrock pode computar as métricas de desempenho, como a robustez semântica de um modelo e a exatidão de uma base de conhecimento na recuperação de informações e na geração de respostas. Para avaliações de modelo, também é possível utilizar uma equipe de trabalhadores humanos para classificar e fornecer opiniões para a avaliação.

As avaliações automáticas, inclusive avaliações que utilizam grandes modelos de linguagem (LLMs), produzem pontuações e métricas computadas que ajudam a avaliar a eficácia dos modelos e das bases de conhecimento. As avaliações baseadas em humanos usam uma equipe de pessoas que fornecem suas classificações e preferências em relação a determinadas métricas.

Visão geral: trabalhos automáticos de avaliação de modelo

Os trabalhos automáticos de avaliação de modelo permitem que você avalie rapidamente a capacidade de um modelo de executar realizar uma tarefa. É possível fornecer um conjunto de dados de prompts personalizado, adaptado a um caso de uso específico, ou usar um conjunto de dados integrado disponível.

Visão geral: trabalhos de avaliação de modelo com a participação de operadores humanos

Os trabalhos de avaliação de modelo com a participação de operadores humanos permitem que você inclua contribuições humanas no processo de avaliação de modelo. Eles podem ser funcionários da sua empresa ou um grupo de especialistas no assunto do setor.

Visão geral: trabalhos de avaliação de modelo que utilizam um modelo avaliador

Os trabalhos de avaliação de modelo que usam um modelo como avaliador permitem que você avalie rapidamente as respostas de um modelo por meio de um segundo LLM. O segundo LLM classifica as respostas e fornece uma explicação para cada uma.

Visão geral das avaliações de RAG que usam grandes modelos de linguagem (LLMs)

As avaliações baseadas em LLM computam métricas de desempenho para a base de conhecimento. As métricas revelam se uma fonte de RAG ou uma base de conhecimento do Amazon Bedrock é capaz de recuperar informações altamente relevantes e gerar respostas úteis e apropriadas. Você fornece um conjunto de dados que contém os prompts ou as consultas do usuário para avaliar como uma base de conhecimento recupera informações e gera respostas para as consultas em questão. O conjunto de dados também deve incluir “verdades de referência” ou os textos e respostas recuperados esperados para as consultas, para que a avaliação possa verificar se a base de conhecimento está alinhada com o previsto.

Use o tópico a seguir para saber mais sobre como criar seu primeiro trabalho de avaliação de modelo.

Os trabalhos de avaliação de modelo podem ser aplicados aos seguintes tipos de modelo do Amazon Bedrock:

  • Modelos de base

  • Modelos do Amazon Bedrock Marketplace

  • Modelos de base personalizados

  • Modelos de base importados

  • Roteadores de prompts

  • Modelos em que você comprou throughput provisionado: