Escrevendo as melhores práticas para otimizar os aplicativos RAG

Ivan Cui e Samantha Stuart, Amazon Web Services

Julho de 2025 (histórico do documento)

Grandes modelos de linguagem (LLMs) revolucionaram o campo da inteligência artificial com sua notável capacidade de entender e gerar textos semelhantes aos humanos. No entanto, eles enfrentam uma limitação significativa: eles só podem trabalhar com o conhecimento contido em seus dados de treinamento. É aqui que a Retrieval Augmented Generation (RAG) ajuda. Ele oferece uma solução que combina LLMs com fontes externas de conhecimento, como dados e documentos da sua organização. Por meio de um processo de duas etapas que envolve recuperação de informações e geração de respostas, o RAG permite que os sistemas de IA acessem e incorporem up-to-date informações de várias fontes, resultando em respostas mais precisas e informadas que preenchem a lacuna entre o conhecimento do modelo estático e as necessidades dinâmicas de informações do mundo real.

Como você pode otimizar o conteúdo para recuperação em um aplicativo baseado em RAG? Este guia fornece as melhores práticas para ajudá-lo a otimizar a formatação e o estilo de escrita do conteúdo baseado em texto na base de conhecimento. A otimização do conteúdo aprimora o contexto que ajuda os aplicativos RAG a entender as informações específicas da tarefa com mais precisão. Quando o sistema recupera conteúdo altamente relevante e preciso, a qualidade da resposta do LLM melhora. A otimização do processo de entrega de contexto no nível do sistema é chamada de engenharia de contexto e é uma parte essencial das arquiteturas RAG agênticas. No RAG agente, um ou mais LLMs motivos adicionais atendam às solicitações de entrada antes da execução do RAG. Isso facilita um processo de entrega de informações em várias etapas. À medida que as arquiteturas RAG se tornam cada vez mais complexas, a otimização do conteúdo de origem continua sendo o meio mais direto de fornecer um contexto claro. LLMs Essas melhores práticas foram projetadas para ajudar você a maximizar o investimento da sua organização em um aplicativo RAG.

Público-alvo

Este guia é destinado a engenheiros de IA, cientistas de dados, engenheiros de dados ou desenvolvedores de software que estão criando aplicativos LLM com um ou mais componentes RAG. Para entender os conceitos e recomendações deste guia, você deve estar familiarizado com os bancos de dados vetoriais e as solicitações de LLMs.

Objetivos

As recomendações deste guia podem ajudar você a alcançar o seguinte:

Melhore a precisão e a relevância das respostas geradas pelos aplicativos RAG fornecendo documentos de origem bem estruturados e semanticamente ricos, otimizados para uso de tokens e redundância.
Ajude os aplicativos do RAG a entender melhor o conhecimento e o contexto específicos do domínio, fornecendo definições e explicações claras nos documentos de origem.
Facilite a manutenção e as atualizações da base de conhecimento para aplicativos RAG aderindo às diretrizes consistentes de formatação e estruturação em todos os documentos de origem.
Melhore a escalabilidade das soluções RAG dividindo documentos grandes e monolíticos em unidades menores e independentes que podem ser indexadas e recuperadas com eficiência.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Compreendendo LLMs e RAG