Desafios nos dados de origem que afetam os aplicativos RAG

Um dos desafios significativos no desenvolvimento de um aplicativo ideal de geração aumentada de recuperação (RAG) está na natureza dos dados ou documentos brutos usados. Muitas vezes, as empresas usam documentos existentes que foram criados para referência humana. Esses documentos geralmente incluem hiperlinks e capturas de tela de imagens para promover a compreensão. No entanto, esses elementos obstruem a recuperação semântica devido aos limites do token do trecho. Isso resulta em baixo desempenho do recuperador.

A seguir estão os desafios mais comuns de documentos brutos para um aplicativo RAG ideal:

Falta de formatação e metadados estruturados — documentos brutos podem não ter cabeçalhos de seção, subtítulos ou metadados claros. Isso torna difícil identificar e extrair informações relevantes. Por exemplo, um documento longo sem cabeçalhos claros pode dificultar a determinação do contexto de informações específicas.
Linguagem informal e inconsistente — Documentos brutos geralmente contêm linguagem informal ou terminologia inconsistente. Isso pode confundir os modelos RAG. Por exemplo, abreviações que não estão definidas no documento ou que já são conhecidas pelo LLM podem ser usadas em todo o documento.
Verbosidade e redundância — Documentos brutos podem ser detalhados e conter informações desnecessárias ou redundantes. Isso pode sobrecarregar os modelos RAG, levando a respostas menos concisas e relevantes. Os exemplos incluem um documento que repete as mesmas informações várias vezes ou vários documentos que contêm informações semelhantes ou contraditórias.
Termos e frases ambíguos — documentos brutos podem conter termos ou frases ambíguos que podem ser interpretados de várias maneiras. Essa ambigüidade pode levar a interpretações errôneas pelos modelos RAG e respostas imprecisas. Por exemplo, um documento que usa um termo com vários significados pode resultar em uma resposta que não se alinha ao significado pretendido.
Injeção de elementos gráficos e de hiperlink — Documentos brutos que contêm gráficos e informações de hiperlinks funcionam bem para consumo humano. No entanto, esses elementos podem consumir o limite do token de recuperação. O resultado é que os trechos podem estar incompletos. Por exemplo, gráficos e hiperlinks URLs são retornados como parte da recuperação, que usa os tokens de recuperação, e faltam as principais informações dos parágrafos subsequentes.
Falta de conhecimento ou contexto específico do domínio — Os documentos brutos podem não ter o conhecimento específico do domínio ou o contexto necessários para uma geração precisa. Isso pode limitar a capacidade dos modelos RAG de gerar respostas relevantes e precisas. Um exemplo é um documento que faz referência a conceitos especializados sem fornecer contexto. Isso pode levar a respostas que não são significativas em um determinado domínio.

Embora essa lista não seja abrangente, ela fornece um ponto de partida para as empresas pensarem sobre o que não está funcionando e por quê. Os documentos podem ter um ou mais desses desafios. A chave para otimizar um aplicativo RAG é usar um conjunto de documentos que sigam as melhores práticas de redação que otimizem a recuperação.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Compreendendo LLMs e RAG

Práticas recomendadas