Diferencias de datos entre la IA generativa y el ML tradicional

El panorama de la inteligencia artificial se caracteriza por una distinción fundamental entre los enfoques tradicionales de aprendizaje automático y los sistemas modernos de IA generativa, especialmente en la forma en que procesan y utilizan los datos. Este análisis exhaustivo explora tres dimensiones clave de esta evolución tecnológica: las diferencias estructurales entre los tipos de datos, sus requisitos de procesamiento y las diversas modalidades de datos que pueden gestionar los sistemas de IA modernos. También destaca cómo los datos sintéticos creados por la IA generativa están emergiendo como una nueva fuente de datos de entrenamiento. Los datos sintéticos permiten implementar casos de uso tradicionales de aprendizaje automático que antes estaban limitados por la escasez de datos y las restricciones de privacidad de los datos. Comprender estas distinciones es crucial para las organizaciones, ya que les ayuda a sortear las complejidades de la administración de datos, la formación de modelos y las aplicaciones prácticas en varios sectores.

Esta sección contiene los siguientes temas:

Datos estructurados y no estructurados
Diversas modalidades de datos
Sintetización de datos para el aprendizaje automático tradicional

Datos estructurados y no estructurados

Los modelos de aprendizaje automático tradicionales y los sistemas modernos de IA generativa difieren considerablemente en sus requisitos de datos y en la naturaleza de los datos que manejan.

El aprendizaje automático tradicional utiliza datos organizados en tablas o esquemas fijos o conjuntos de datos de imágenes y audio seleccionados que tienen anotaciones. Algunos ejemplos son los modelos predictivos que analizan datos tabulares o la visión artificial clásica. Estos sistemas suelen basarse en conjuntos de datos estructurados y etiquetados. En el caso del aprendizaje supervisado, cada punto de datos suele incluir una etiqueta o un objetivo explícitos, como una imagen etiquetada cat o una fila de datos de ventas que tiene un valor objetivo.

Por el contrario, los modelos de IA generativa prosperan con datos no estructurados o semiestructurados. Esto incluye modelos de lenguaje de gran tamaño (LLMs) y modelos de visión generativa o de audio. No requieren etiquetas explícitas para la formación previa, que es cuando aprenden la comprensión general del lenguaje a partir de un conjunto de datos enorme y diverso. Esta distinción es clave: los modelos generativos pueden asimilar y aprender de grandes cantidades de texto o imágenes sin necesidad de etiquetarlas manualmente. Esto es algo que el aprendizaje automático supervisado tradicional no puede hacer.

Para sobresalir en tareas o dominios específicos, estas personas previamente capacitadas LLMs requieren una capacitación específica para cada tarea, lo que a menudo se denomina ajuste fino. Implica seguir entrenando el modelo previamente entrenado en un conjunto de datos más pequeño y especializado con instrucciones o pares de instrucciones para completarlo. De este modo, ajustar un modelo de IA generativa es como el proceso de entrenamiento supervisado de un modelo de aprendizaje automático tradicional.

Diversas modalidades de datos

Los modelos modernos de IA generativa procesan y producen una amplia gama de tipos de datos: texto, código, imágenes, audio, vídeo e incluso combinaciones, conocidas como datos multimodales. Por ejemplo, los modelos básicos, como Anthropic Claude, se basan en datos textuales (páginas web, libros, artículos) e incluso en grandes repositorios de código. Los modelos de visión generativa, como Amazon Nova Canvas o Stable Diffusion, aprenden de las imágenes que suelen ir acompañadas de texto (subtítulos o etiquetas). Los modelos de audio generativo pueden consumir datos de ondas sonoras o transcripciones para generar voz o música.

Los sistemas de IA generativa son cada vez más multimodales. Estos sistemas pueden procesar y producir combinaciones de texto, imágenes y audio, con la capacidad de gestionar textos y medios no estructurados a escala. Pueden aprender los matices del lenguaje, la visión y el sonido que el aprendizaje automático tradicional de datos estructurados no puede aprender. Esta flexibilidad contrasta con los modelos de aprendizaje automático típicos, que suelen especializarse en un tipo de datos a la vez. Por ejemplo, un modelo de clasificador de imágenes no puede generar texto, o un modelo de procesamiento de lenguaje natural (NLP) entrenado para el análisis de opiniones no puede crear imágenes.

Incluso LLMs tienen límites. Cuando se trata de procesar datos tabulares, como los archivos CSV, se LLMs enfrentan a desafíos notables durante la inferencia. El estudio Descubriendo las limitaciones de los modelos lingüísticos de gran tamaño en la búsqueda de información a partir de tablas destaca las dificultades que LLMs suelen tener para comprender las estructuras de las tablas y extraer la información con precisión. La investigación descubrió que el rendimiento de los modelos oscilaba entre ser ligeramente satisfactorio o inadecuado, lo que revelaba una mala comprensión de las estructuras de las tablas. El diseño inherente de LLMs contribuye a estas limitaciones. Están entrenados principalmente en datos de texto secuenciales, lo que les permite predecir y generar contenido basado en texto. Sin embargo, esta formación no se traduce perfectamente en la interpretación de datos tabulares, donde es fundamental comprender las relaciones entre filas y columnas. Como resultado, LLMs pueden malinterpretar el contexto o la importancia de los datos numéricos de las tablas, lo que lleva a análisis inexactos.

En esencia, una estrategia de datos empresarial para la IA generativa debe tener en cuenta un contenido mucho más desestructurado que antes. Las organizaciones necesitan evaluar su cuerpo de texto (documentos, correos electrónicos, bases de conocimiento), repositorios de código, archivos de audio y vídeo y otras fuentes de datos no estructurados, no solo las tablas perfectamente organizadas de su almacén de datos.

Sintetización de datos para el aprendizaje automático tradicional

La IA generativa puede superar algunas barreras de larga data a las que se enfrenta el aprendizaje automático tradicional, en particular las relacionadas con la escasez de datos y las restricciones de privacidad. Al utilizar modelos básicos para generar datos sintéticos (conjuntos de datos artificiales que imitan de cerca las distribuciones del mundo real), las organizaciones ahora pueden descubrir casos de uso del aprendizaje automático que antes estaban fuera de su alcance debido a la escasez de datos, los problemas de privacidad y los altos costes asociados a la recopilación y anotación de grandes conjuntos de datos.

En el sector de la salud, por ejemplo, se han utilizado imágenes médicas sintéticas para ampliar los conjuntos de datos existentes. Esto puede mejorar los modelos de diagnóstico y, al mismo tiempo, salvaguardar la confidencialidad del paciente. En el sector financiero, los datos sintéticos pueden ayudarle a simular escenarios de mercado, lo que facilita la evaluación de riesgos y la negociación algorítmica sin exponer información confidencial. Los datos sintéticos que simulan diversas condiciones de conducción favorecen el desarrollo de vehículos autónomos. Facilita el entrenamiento de los sistemas de visión artificial en escenarios difíciles de capturar en la vida real. Al utilizar modelos básicos para la generación de datos sintéticos, las organizaciones pueden mejorar el rendimiento de los modelos de aprendizaje automático, cumplir con las normas de privacidad de los datos y descubrir nuevos casos de uso en varios sectores.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción

Ciclo de vida de los datos