Desafíos en los datos de origen que afectan a las aplicaciones RAG

Uno de los principales desafíos a la hora de desarrollar una aplicación óptima de generación aumentada (RAG) reside en la naturaleza de los datos o documentos sin procesar que se utilizan. A menudo, las empresas utilizan documentos existentes que se crearon como referencia humana. Estos documentos suelen incluir hipervínculos y capturas de pantalla de imágenes para fomentar la comprensión. Sin embargo, estos elementos obstruyen la recuperación semántica debido a los límites de los fragmentos simbólicos. Esto se traduce en un rendimiento deficiente del recuperador.

Los siguientes son los desafíos más comunes relacionados con los documentos sin procesar para una aplicación RAG óptima:

Falta de metadatos y formatos estructurados: los documentos sin procesar pueden carecer de encabezados de sección, subtítulos o metadatos claros. Esto dificulta la identificación y extracción de la información relevante. Por ejemplo, un documento extenso sin encabezados claros puede dificultar la determinación del contexto de información específica.
Lenguaje informal e incoherente: los documentos sin procesar suelen contener un lenguaje informal o una terminología incoherente. Esto puede confundir a los modelos RAG. Por ejemplo, las abreviaturas que no están definidas en el documento o que el LLM ya conoce pueden usarse en todo el documento.
Verbosidad y redundancia: los documentos sin procesar pueden ser detallados y contener información innecesaria o redundante. Esto puede abrumar a los modelos RAG y generar respuestas menos concisas y relevantes. Los ejemplos incluyen un documento que repite la misma información varias veces o varios documentos que contienen información similar o contradictoria.
Términos y frases ambiguos: los documentos sin procesar pueden contener términos o frases ambiguos que pueden interpretarse de varias maneras. Esta ambigüedad puede provocar interpretaciones erróneas por parte de los modelos RAG y respuestas inexactas. Por ejemplo, un documento que usa un término con múltiples significados puede generar una respuesta que no se alinee con el significado deseado.
Inyección de elementos gráficos y de hipervínculos: los documentos sin procesar que contienen gráficos e información de hipervínculos funcionan bien para el consumo humano. Sin embargo, estos elementos pueden consumir el límite de fichas de recuperación. El resultado es que los extractos pueden estar incompletos. Por ejemplo, los gráficos y el hipervínculo URLs se devuelven como parte de la recuperación, lo que agota los símbolos de recuperación, y falta la información clave de los párrafos siguientes.
Falta de conocimiento o contexto específicos del dominio: los documentos sin procesar pueden carecer del conocimiento o el contexto necesarios para una generación precisa de un dominio específico. Esto puede limitar la capacidad de los modelos RAG para generar respuestas relevantes y precisas. Un ejemplo es un documento que hace referencia a conceptos especializados sin proporcionar un contexto. Esto podría dar lugar a respuestas que no son significativas en el dominio en cuestión.

Si bien esta lista no es exhaustiva, proporciona un punto de partida para que las empresas piensen en qué es lo que no funciona y por qué. Los documentos pueden tener uno o más de estos desafíos. La clave para optimizar una aplicación RAG es utilizar un conjunto de documentos que cumplan con las mejores prácticas de redacción que optimicen la recuperación.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Comprensión de los LLM y los RAG

Prácticas recomendadas