Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Documentación: prácticas recomendadas para aplicaciones RAG
El desarrollo de una aplicación exitosa de generación aumentada por recuperación (RAG) requiere una consideración cuidadosa de varios factores relacionados con los documentos para optimizar su rendimiento. Las mejores prácticas de esta sección se han seleccionado en función de la experiencia en la creación de sistemas RAG con muchos líderes de la organización. Las siguientes son algunas de las mejores prácticas clave para que los documentos mejoren la eficacia de su aplicación de RAG:
-
Utilice los encabezados y subtítulos correctamente: organizar el contenido con encabezados y subtítulos claros mejora la legibilidad y ayuda a los modelos RAG a comprender la estructura de los documentos. Esta práctica permite a los modelos navegar mejor y extraer información de los documentos, lo que mejora la calidad de las respuestas generadas.
-
Asegúrese de que la numeración sea secuencial: cuando utilice listas numeradas, es importante mantener una numeración adecuada para evitar confusiones. Asegúrese de que cada elemento de la lista esté numerado secuencialmente sin omitir números. Esto ayuda a mantener la claridad y la coherencia del contenido.
-
Agregue transiciones entre los elementos de una lista: proporcionar transiciones entre los elementos de una lista numerada o con viñetas ayuda a guiar al LLM a través del contenido. Por ejemplo, puedes usar frases como «Después de completar el paso 2, haz...» para conectar ideas y mejorar el flujo de información.
-
Sustituir tablas: evite usar tablas. Formatee esta información en listas con viñetas de varios niveles o en una sintaxis de nivel plano. La sintaxis de nivel plano consiste en organizar elementos o elementos en el mismo nivel jerárquico, sin niveles anidados de subordinación. Estas estructuras ayudan a LLMs asimilar la información. Como la mayoría de los documentos indexados se leen de izquierda a derecha, la sintaxis de nivel plano permite que la información se muestre de manera más coherente sin necesidad de hacer referencia a una dimensión adicional. Este formato es más adecuado para las aplicaciones RAG porque presenta la información de una manera estructurada y fácil de digerir.
-
Procese previamente la información gráfica para aumentar la eficiencia: Multimodal LLMs puede ingerir tanto imágenes como texto. Reduzca la resolución de las imágenes, elimine las imágenes redundantes y describa el contenido de los elementos gráficos en formato de texto. Estas medidas mejoran el contexto significativo, evitan el consumo innecesario de fichas y mejoran la accesibilidad de los modelos RAG.
-
Añada iniciadores de sesión para consultas habituales: cuando aborde preguntas o tareas habituales, como «¿Cómo solicito el software?» , añada un iniciador de sesión que haga que el lector participe en el proceso. Por ejemplo, puede añadir «Si quiere solicitar un software, siga los pasos que se indican a continuación...». Esto ayuda a crear una alta coincidencia semántica, lo que ayuda al LLM a construir una respuesta cohesiva.
-
Agregue un resumen a cada sección: después de cada encabezado o subtítulo, agregue un resumen breve y conciso del contenido de esa sección. Esto puede aumentar la cobertura semántica y reforzar los puntos clave. Esto mejora la precisión de la búsqueda de similitudes en el espacio de incrustación, lo que mejora el rendimiento de la aplicación RAG. Esto resulta especialmente útil si el documento está destinado tanto a la enseñanza previa como al consumo humano o si se necesitan elementos gráficos y de tablas.
-
Desambiguación: los documentos deben ser concisos y específicos. LLMs generen respuestas basadas en extractos recuperados, de modo que la desambiguación ayude al modelo a utilizar información clara y relevante. Esto da como resultado respuestas más precisas e informativas.
-
Defina las abreviaturas y establezca el contexto: LLMs se entrenan con una gran cantidad de datos de Internet y, la mayoría de las veces, no tienen el contexto de los documentos internos de una empresa. Por lo tanto, establecer el contexto, definir abreviaturas y evitar o definir la terminología específica de la empresa ayuda al LLM a comprender los datos de la empresa. Esto ayuda al LLM a responder a las preguntas con mayor precisión y puede ayudar a prevenir las alucinaciones.
-
Reestructura los documentos grandes en documentos más pequeños para etiquetarlos e indexarlos de manera eficiente: evita indexar un documento grande que contenga varios subtemas. Considere la posibilidad de dividir el documento grande en documentos más pequeños e independientes con títulos claros. Esto mejora la indexación y el etiquetado.