Preparación de datos Generación aumentada de recuperación Ajuste Conjunto de datos de evaluación Bucles de retroalimentación

Ciclo de vida de los datos en la IA generativa

La implementación de la IA generativa en una empresa implica un ciclo de vida de los datos paralelo al ciclo de vida tradicional. AI/ML Sin embargo, hay consideraciones únicas en cada etapa. Las fases clave incluyen la preparación de los datos, la integración en los flujos de trabajo del modelo (como la recuperación o el ajuste), la recopilación de comentarios y las actualizaciones continuas. En esta sección se analizan estas etapas interconectadas del ciclo de vida de los datos y se detallan los procesos, los desafíos y las mejores prácticas esenciales que las organizaciones deben tener en cuenta a la hora de desarrollar e implementar soluciones de IA generativa.

Esta sección contiene los siguientes temas:

Preparación y limpieza de datos para la formación previa
Generación aumentada de recuperación
Perfeccionamiento y formación especializada
Conjunto de datos de evaluación
Datos generados por los usuarios y bucles de retroalimentación

Preparación y limpieza de datos para la formación previa

La basura que entra, basura que sale es el concepto de que los insumos de mala calidad dan como resultado productos de baja calidad similar. Al igual que en cualquier proyecto de IA, la calidad de los datos es un make-or-break factor. La IA generativa a menudo comienza con conjuntos de datos masivos, pero el volumen por sí solo no es suficiente. La limpieza, el filtrado y el preprocesamiento cuidadosos son fundamentales.

En esta etapa, los equipos de datos agregan datos sin procesar, como grandes cantidades de texto o colecciones de imágenes. Luego, eliminan el ruido, los errores y los sesgos. Por ejemplo, preparar el texto para un LLM puede implicar eliminar los duplicados, eliminar la información personal confidencial y filtrar el contenido tóxico o irrelevante. El objetivo es crear un conjunto de datos de alta calidad que represente realmente el conocimiento o el estilo que debe captar el modelo. Los datos también pueden normalizarse o formatearse en una estructura adecuada para la incorporación del modelo. Por ejemplo, puede tokenizar el texto, eliminar etiquetas HTML o normalizar la resolución de la imagen.

En la IA generativa, esta preparación puede ser especialmente intensiva debido a la escala. Los modelos como Anthropic Claude se basan en cientos de miles de millones de fichas (Wikipedia) que provienen de una amplia gama de fuentes de datos disponibles públicamente y con licencia. Incluso pequeños porcentajes de datos incorrectos pueden tener efectos desmesurados en los resultados, como contenido ofensivo o errores fácticos. Por ejemplo, varios proveedores de LLM informaron que habían excluido el contenido de una comunidad de Reddit de su conjunto de datos de formación porque las publicaciones consistían principalmente en secuencias largas de la letra M para imitar el ruido de un microondas. Estas publicaciones estaban interrumpiendo el entrenamiento y el rendimiento de los modelos.

En esta etapa, algunas empresas adoptan el aumento de datos para aumentar la cobertura de ciertos escenarios. El aumento de datos es el proceso de sintetizar datos de entrenamiento adicionales. Para obtener más información, consulte Sintetización de datos en esta guía.

Al entrenar el modelo con los datos preparados y preprocesados, puede utilizar técnicas de mitigación para abordar notablemente los sesgos. Las técnicas incluyen incorporar principios éticos en la arquitectura del modelo, lo que se conoce como IA constitucional. Otra técnica es el sesgo contradictorio, que desafía el modelo durante el entrenamiento para lograr resultados más justos entre los diferentes grupos. Por último, después del entrenamiento, puede realizar ajustes posteriores al procesamiento para refinar el modelo mediante un ajuste fino. Esto puede ayudar a corregir cualquier sesgo restante y a mejorar la imparcialidad general.

Generación aumentada de recuperación

Los modelos estáticos de aprendizaje automático hacen predicciones únicamente a partir de un conjunto de entrenamiento fijo. Sin embargo, muchas soluciones de IA generativa empresarial utilizan Retrieval Augmented Generation (RAG) para mantener los conocimientos de un modelo actualizados y relevantes. La RAG implica conectar un LLM a un repositorio de conocimiento externo que puede contener documentos empresariales, bases de datos u otras fuentes de datos.

En la práctica, el RAG requiere la implementación de una canalización de datos adicional. Esto introduce un cierto grado de complejidad e implica los siguientes pasos secuenciales:

Ingestión y filtrado: recopile datos relevantes y de alta calidad de diversas fuentes. Implemente mecanismos de filtrado para excluir la información redundante o irrelevante y asegúrese de que el conjunto de datos sea relevante para el dominio de la aplicación. Tenga en cuenta que las actualizaciones y el mantenimiento periódicos del repositorio de datos son esenciales para preservar la precisión y la relevancia de la información.
Análisis y extracción: después de la ingesta de datos, los datos deben analizarse para extraer contenido significativo. Utilice analizadores que puedan gestionar varios formatos de datos, como HTML, JSON o texto sin formato. Los analizadores convierten los datos sin procesar en formularios estructurados. Este proceso facilita la manipulación y el análisis de los datos en las etapas posteriores.
Estrategias de fragmentación: divida los datos en partes o fragmentos manejables. Este paso es vital para una recuperación y un procesamiento eficientes. Las estrategias de fragmentación incluyen, entre otras, las siguientes:
- Fragmentación estándar basada en fichas: divide el texto en segmentos de tamaño fijo en función de un número específico de fichas. Esta es la estrategia de fragmentación más básica, pero ayuda a mantener una longitud uniforme de los fragmentos.
- Fragmentación jerárquica: organice el contenido en una jerarquía (por ejemplo, capítulos, secciones o párrafos) para preservar las relaciones contextuales. Esta estrategia mejora la comprensión del modelo de la estructura de datos.
- Fragmentación semántica: segmente el texto en función de la coherencia semántica. Asegúrese de que cada fragmento represente una idea o un tema completo. Esta estrategia puede mejorar la relevancia de la información recuperada.
Selección del modelo de incrustación: las bases de datos vectoriales almacenan incrustaciones, que son representaciones numéricas de un fragmento de texto que conservan su significado y contexto. Una incrustación es un formato que un modelo de aprendizaje automático puede entender y comparar para realizar una búsqueda semántica. Elegir el modelo de incrustación adecuado es fundamental para captar la esencia semántica de los fragmentos de datos. Seleccione modelos que se ajusten a las necesidades específicas de su dominio y que puedan generar incrustaciones que reflejen con precisión el significado del contenido. Elegir el mejor modelo de incrustación para su caso de uso puede mejorar la relevancia y la precisión contextual.
Algoritmos de indexación y búsqueda: indexe las incrustaciones en una base de datos vectorial optimizada para búsquedas por similitud. Emplee algoritmos de búsqueda que gestionen de forma eficiente los datos de alta dimensión y faciliten la recuperación rápida de la información relevante. Técnicas como la búsqueda aproximada del vecino más cercano (ANN) pueden mejorar considerablemente la velocidad de recuperación sin comprometer la precisión.

Las tuberías RAG son intrínsecamente complejas. Requieren múltiples etapas, diferentes niveles de integración y un alto grado de experiencia para diseñar de manera efectiva. Cuando se implementan correctamente, pueden mejorar significativamente el rendimiento y la precisión de una solución de IA generativa. Sin embargo, el mantenimiento de estos sistemas requiere muchos recursos y requiere una supervisión, optimización y escalado continuos. Esta complejidad ha llevado a la aparición de un enfoque específico para poner en funcionamiento y administrar las tuberías RAG de manera eficiente RAGOps, a fin de promover la confiabilidad y la eficacia a largo plazo.

Para obtener más información sobre RAG on AWS, consulte los siguientes recursos:

Active las opciones y arquitecturas de generación aumentada (guía prescriptiva AWS)AWS
Elección de una base de datos AWS vectorial para los casos de uso de RAG (guía prescriptiva)AWS
Implemente un caso de uso de RAG AWS mediante Terraform y Amazon Bedrock (AWS orientación prescriptiva)

Perfeccionamiento y formación especializada

El ajuste fino puede adoptar dos formas distintas: el ajuste fino del dominio y el ajuste fino de las tareas. Cada una tiene un propósito diferente al adaptar un modelo previamente entrenado. El ajuste de un dominio sin supervisión implica seguir capacitando el modelo sobre un conjunto de textos de un dominio específico para ayudarlo a comprender mejor el idioma, la terminología y el contexto propios de un campo o industria en particular. Por ejemplo, puedes ajustar un máster especializado en contenido multimedia a partir de una colección de artículos y jerga internos para que refleje el tono de voz y el vocabulario especializado de la empresa.

Por el contrario, el ajuste de las tareas supervisadas se centra en enseñar al modelo a realizar una función o un formato de salida específicos. Por ejemplo, puede enseñarle a responder a las consultas de los clientes, resumir documentos legales o extraer datos estructurados. Por lo general, esto requiere preparar un conjunto de datos etiquetado que contenga ejemplos de las entradas y los resultados deseados para la tarea objetivo.

Ambos enfoques requieren una recopilación y conservación cuidadosas de los datos ajustados. Para ajustar las tareas, los conjuntos de datos se etiquetan de forma explícita. Para ajustar el dominio, puede utilizar texto sin etiquetas para mejorar la comprensión general del lenguaje en el contexto relevante. Independientemente del enfoque, la calidad de los datos es fundamental. Los conjuntos de datos limpios, representativos y del tamaño adecuado son esenciales para mantener y mejorar el rendimiento del modelo. Por lo general, los conjuntos de datos de ajuste fino son mucho más pequeños que los que se utilizan para la formación previa inicial, pero deben seleccionarse cuidadosamente para garantizar una adaptación efectiva del modelo.

Una alternativa al ajuste fino es la destilación de modelos, una técnica que implica entrenar un modelo más pequeño y especializado para replicar el rendimiento de un modelo más grande y general. En lugar de ajustar con precisión un LLM existente, la destilación de modelos transfiere el conocimiento al entrenar a un modelo ligero (el estudiante) con los resultados generados por el modelo original, más complejo (el profesor). Este enfoque es particularmente beneficioso cuando la eficiencia computacional es una prioridad, ya que los modelos destilados requieren menos recursos y, al mismo tiempo, conservan el rendimiento específico de las tareas.

En lugar de requerir una gran cantidad de datos de capacitación específicos de un dominio, la destilación de modelos se basa en conjuntos de datos sintéticos o generados por el profesor. El modelo complejo produce ejemplos de alta calidad de los que puede aprender el modelo ligero. Esto reduce la carga que supone conservar los datos patentados, pero sigue exigiendo una selección cuidadosa de ejemplos de formación diversos e imparciales para mantener las capacidades de generalización. Además, la síntesis puede ayudar a mitigar los riesgos asociados a la privacidad de los datos, ya que se puede utilizar un modelo ligero con datos protegidos sin exponer directamente los registros confidenciales.

Dicho esto, es poco probable que la mayoría de las organizaciones realicen ajustes o refinamientos, ya que a menudo son innecesarios para sus casos de uso e introducen un nivel adicional de complejidad técnica y operativa. Muchas de las necesidades empresariales pueden satisfacerse de forma eficaz utilizando modelos básicos previamente entrenados, a veces con una ligera personalización mediante ingeniería inmediata o herramientas como el RAG. El ajuste preciso requiere una inversión considerable en términos de capacidad técnica, conservación de datos y gobierno del modelo. Esto lo hace más adecuado para aplicaciones empresariales altamente especializadas o de gran escala cuando dicho esfuerzo esté justificado.

Conjunto de datos de evaluación

Desarrollar una estrategia de datos sólida es esencial a la hora de crear conjuntos de datos de evaluación para soluciones de IA generativa. Estos conjuntos de datos de evaluación actúan como puntos de referencia para evaluar el rendimiento del modelo. Deben basarse en datos fiables y basados en datos reales, es decir, datos que se sabe que son precisos, verificados y representativos de los resultados del mundo real. Por ejemplo, los datos basados en la verdad pueden ser datos reales que no se incluyen en un conjunto de datos de entrenamiento o de ajuste detallado. Los datos basados en datos básicos pueden provenir de varias fuentes y cada una presenta sus propios desafíos.

La generación de datos sintéticos proporciona una forma escalable de crear conjuntos de datos controlados para probar las capacidades específicas de los modelos sin exponer información confidencial. Sin embargo, su eficacia depende de la precisión con la que reproduzca las distribuciones genuinas de la verdad básica.

Como alternativa, los conjuntos de datos seleccionados manualmente, a menudo denominados conjuntos de datos básicos, contienen pares de preguntas y respuestas rigurosamente verificados o ejemplos etiquetados. Estos conjuntos de datos pueden servir como datos reales básicos de alta calidad para una evaluación sólida del modelo. Sin embargo, la compilación de estos conjuntos de datos requiere mucho tiempo y recursos. Incorporar las interacciones reales con los clientes como datos de evaluación puede mejorar aún más la relevancia y la cobertura de los datos básicos, aunque esto requiere estrictas garantías de privacidad y el cumplimiento de las normas (como las del GDPR y la CCPA).

Una estrategia de datos integral debería equilibrar estos enfoques. Para evaluar eficazmente los modelos de IA generativa, tenga en cuenta factores como la calidad de los datos, la representatividad, las consideraciones éticas y la alineación con los objetivos empresariales. Para obtener más información, consulte Amazon Bedrock Evaluations.

Datos generados por los usuarios y bucles de retroalimentación

Una vez que se implementa un sistema de IA generativa, comienza a producir resultados e interactuar con los usuarios. Estas interacciones en sí mismas se convierten en una valiosa fuente de datos. Los datos generados por los usuarios incluyen las preguntas e indicaciones de los usuarios, las respuestas del modelo y cualquier comentario explícito que los usuarios proporcionen (como las calificaciones). Las empresas deberían considerar estos datos como parte del ciclo de vida de los datos generativos de la IA e incorporarlos a los procesos de supervisión y mejora. Lo que es más importante, los datos generados por los usuarios se pueden incorporar a su conjunto de datos básicos. Esto ayuda a optimizar aún más las solicitudes y a mejorar el rendimiento general de la aplicación a lo largo del tiempo. Otra razón fundamental es gestionar la desviación del modelo y el rendimiento a lo largo del tiempo. Tras su uso en el mundo real, el modelo podría empezar a apartarse de su ámbito de formación. Algunos ejemplos de ello son la nueva jerga que aparece en las consultas o los usuarios que hacen preguntas sobre temas emergentes que no están presentes en los datos de formación. La supervisión de estos datos en tiempo real puede revelar una desviación de los datos, es decir, cambios en la distribución de las entradas, lo que podría reducir la precisión del modelo.

Para combatir esta situación, las organizaciones establecen circuitos de retroalimentación mediante la captura de las interacciones de los usuarios y reentrenando o ajustando periódicamente el modelo a partir de una muestra reciente de ellos. A veces, basta con utilizar los comentarios para ajustar las indicaciones y recuperar datos. Por ejemplo, si un asistente interno de un chatbot alucina constantemente con respuestas sobre un producto recién lanzado, el equipo podría recopilar las preguntas y respuestas fallidas e incluir la información correcta como datos adicionales de formación o recuperación.

En algunos casos, el aprendizaje reforzado a partir de la retroalimentación humana (RLHF, por sus siglas en inglés) se utiliza para alinear aún más un máster universitario durante la fase posterior al entrenamiento o la fase de ajuste. Ayuda al modelo a producir respuestas que reflejan mejor las preferencias y los valores humanos. Las técnicas de aprendizaje por refuerzo (RL) capacitan al software para que tome decisiones que maximicen las recompensas y hagan que sus resultados sean más precisos. El RLHF incorpora la retroalimentación humana en la función de recompensas, por lo que el modelo de aprendizaje automático puede realizar tareas más alineadas con los objetivos, deseos y necesidades humanos. Para obtener más información sobre el uso de RLHF en Amazon SageMaker AI, consulte el blog Improving your LLMs with RLHF on SageMaker Amazon on AWS the AI.

Incluso sin una RLHF formal, un enfoque más simple es la revisión manual de una fracción de los resultados del modelo de forma continua, similar a la garantía de calidad. La clave es que el proceso incorpora el monitoreo continuo, la observabilidad y el aprendizaje. Para obtener más información sobre cómo recopilar y almacenar los comentarios humanos de las aplicaciones de IA generativa AWS, consulte la Guía sobre comentarios y análisis de los usuarios de Chatbot AWS en AWS la biblioteca de soluciones.

Para evitar o abordar las desviaciones, las empresas deben planificar actualizaciones continuas de los modelos, que pueden adoptar diversas formas. Un enfoque consiste en programar ajustes periódicos o una formación previa continua. Por ejemplo, puede actualizar el modelo mensualmente con los últimos datos internos, casos de soporte o artículos de noticias. Durante la formación previa continua, un modelo lingüístico previamente entrenado se sigue entrenando con datos adicionales para mejorar su rendimiento, especialmente en dominios o tareas específicos. Este proceso implica exponer el modelo a nuevos datos de texto sin etiquetar, lo que le permite refinar su comprensión y adaptarse a la nueva información sin tener que empezar de cero. Para ayudarlo con ese proceso potencialmente complejo, Amazon Bedrock le permite realizar ajustes y realizar una formación previa continua en un entorno totalmente seguro y gestionado. Para obtener más información, consulte Personalización de modelos en Amazon Bedrock con sus propios datos mediante ajustes precisos y formación previa continua en el blog de noticias. AWS

En el caso de que utilice off-the-shelf modelos con RAG, puede confiar en los servicios de IA en la nube, como Amazon Bedrock. Estos servicios ofrecen actualizaciones periódicas de los modelos a medida que se lanzan y se añaden al catálogo disponible. Esto le ayuda a actualizar sus soluciones para utilizar las versiones más recientes de estos modelos básicos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Diferencias de datos

Consideraciones de seguridad de los datos