Avaliar a performance de fontes de RAG usando as avaliações do Amazon Bedrock

Você pode usar métricas computadas para avaliar a eficácia com que um sistema de geração aumentada via recuperação (RAG) recupera informações relevantes das fontes de dados e a eficácia das respostas geradas para as perguntas. Os resultados de uma avaliação de RAG permitem que você compare diferentes bases de conhecimento do Amazon Bedrock e outras fontes de RAG e, em seguida, escolha a melhor base de conhecimento ou sistema de RAG para sua aplicação.

É possível configurar dois tipos diferentes de trabalho de avaliação de RAG.

Somente recuperação: em um trabalho de avaliação de RAG somente de recuperação, o relatório é baseado nos dados recuperados da fonte de RAG. Você pode usar uma base de conhecimento do Amazon Bedrock e um modelo gerador de respostas ou trazer seus próprios dados de resposta de inferência de uma fonte externa de RAG.
Recuperar e gerar — Em um trabalho de avaliação do retrieve-and-generateRAG, o relatório é baseado nos dados recuperados da sua base de conhecimento e nos resumos gerados pelo modelo gerador de respostas. Você pode usar uma base de conhecimento do Amazon Bedrock e um modelo gerador de respostas ou trazer seus próprios dados de resposta de inferência de uma fonte externa de RAG.

Modelos compatíveis

Para criar um trabalho de avaliação de RAG, você precisa ter acesso a pelo menos um dos modelos avaliadores nas listas a seguir. Para criar um retrieve-and-generate trabalho que usa um modelo Amazon Bedrock para gerar as respostas, você também precisa acessar pelo menos um dos modelos de resposta do gerador listados.

Para saber mais sobre como obter acesso aos modelos e regiões disponíveis, consulte Acessar modelos de base do Amazon Bedrock.

Modelos avaliadores compatíveis (métricas integradas)

Amazon Nova Pro – amazon.nova-pro-v1:0
Claude 3.5 Sonnet v1 da Anthropic: anthropic.claude-3-5-sonnet-20240620-v1:0
Claude 3.5 Sonnet v2 da Anthropic: anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Mistral Large – mistral.mistral-large-2402-v1:0

É possível usar perfis de inferência entre regiões com os modelos listados. Para saber mais, consulte Perfis de inferência entre regiões permitidos.

Modelos avaliadores compatíveis (métricas personalizadas)

Mistral Large 24.02: mistral.mistral-large-2402-v1:0
Mistral Large 24.07: mistral.mistral-large-2407-v1:0
Claude 3.5 Sonnet v1 da Anthropic: anthropic.claude-3-5-sonnet-20240620-v1:0
Claude 3.5 Sonnet v2 da Anthropic: anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Claude 3 Haiku 3 da Anthropic: anthropic.claude-3-haiku-20240307-v1:0
Claude 3 Haiku 3.5 da Anthropic: anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0
Amazon Nova Pro – amazon.nova-pro-v1:0

É possível usar perfis de inferência entre regiões com os modelos listados. Para saber mais, consulte Perfis de inferência entre regiões permitidos.

Modelos geradores de respostas compatíveis

É possível usar os tipos de modelo a seguir no Amazon Bedrock como modelo gerador de respostas em um trabalho de avaliação. Também é possível trazer seus próprios dados de respostas de inferência de modelos do Amazon Bedrock.

Modelos de base: Informações sobre modelos de base do Amazon Bedrock
Modelos do Amazon Bedrock Marketplace: Amazon Bedrock Marketplace
Modelos de base personalizados: Personalizar o modelo para melhorar a performance para o caso de uso
Modelos de base importados: Usar a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock
Roteadores de prompts: Conceitos básicos sobre o Roteamento inteligente de prompts do Amazon Bedrock
Modelos para os quais você comprou throughput provisionado: Aumentar a capacidade de invocação do modelo com throughput provisionado no Amazon Bedrock

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Interromper um trabalho

conjuntos de dados de prompts