View a markdown version of this page

生成式 AI 和传统 ML 之间的数据差异 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

生成式 AI 和传统 ML 之间的数据差异

人工智能格局的特点是传统的机器学习方法和现代生成式人工智能系统之间存在根本的区别,尤其是在它们处理和利用数据的方式方面。这项全面的分析探讨了这种技术演变的三个关键维度:数据类型之间的结构差异、它们的处理要求以及现代人工智能系统可以处理的不同数据模式。它还重点介绍了生成式人工智能创建的合成数据如何成为训练数据的新来源。合成数据使实现以前受数据稀缺和数据隐私限制限制的传统机器学习用例成为可能。了解这些区别对组织至关重要,因为它可以帮助您应对各行各业的数据管理、模型训练和实际应用的复杂性。

结构化数据和非结构化数据

传统的机器学习模型和现代生成式人工智能系统的数据要求和所处理数据的性质存在显著差异。

传统机器学习使用以表格或固定架构形式组织的数据,或者使用带有注释的精选图像和音频数据集。示例包括分析表格数据或经典计算机视觉的预测模型。这些系统通常依赖有标签的结构化数据集。对于监督学习,每个数据点通常都带有明确的标签或目标,例如带有标签的图像cat或具有目标值的一行销售数据。

相比之下,生成式 AI 模型在非结构化或半结构化数据上蓬勃发展。这包括大型语言模型 (LLMs) 和生成式视觉或音频模型。他们不需要明确的标签即可进行预训练,也就是说,他们从庞大而多样的数据集中学习一般的语言理解。这种区别很关键——生成模型无需手动标记即可从大量文本或图像中摄取和学习。这是传统的监督式机器学习无法做到的。

为了在特定的任务或领域表现出色,这些预先训练 LLMs 需要针对特定任务的培训,这通常被称为微调。它涉及在带有指令或完成对的较小专业数据集上进一步训练预训练的模型。这样,微调生成式 AI 模型就像传统机器学习模型的监督训练过程一样。

多样化的数据模式

现代生成式 AI 模型可处理和生成各种数据类型:文本、代码、图像、音频、视频甚至组合,即多模态数据。例如,诸如Anthropic Claude之类的基础模型是根据文本数据(网页、书籍、文章)甚至大型代码存储库进行训练的。生成式视觉模型,例如 Amazon Nova Canvas 或 Stable Diffusion,可以从经常与文本(标题或标签)配对的图像中学习。生成式音频模型可能会消耗声波数据或转录来生成语音或音乐。

生成式人工智能系统越来越多模态。这些系统可以处理和生成文本、图像、音频的组合,并能够大规模处理非结构化文本和媒体。他们可以学习语言、视觉和声音的细微差别,这是传统结构化数据机器学习无法做到的。这种灵活性与典型的机器学习模型形成鲜明对比,后者通常一次只能处理一种数据类型。例如,图像分类器模型无法生成文本,或者经过情感分析训练的自然语言处理 (NLP) 模型无法创建图像。

甚至 LLMs 有极限。在处理表格数据(例如 CSV 文件)时,在推理过程中 LLMs 面临着明显的挑战。《揭示大型语言模型在从表格中搜索信息的局限性》研究重点介绍了在理解表格结构和准确提取信息方面 LLMs 经常遇到困难。研究发现,这些模型的性能从略令人满意到不足不等,这表明对表格结构的掌握不佳。的固有设计 LLMs助长了这些局限性。他们主要接受顺序文本数据的训练,这使他们能够预测和生成基于文本的内容。但是,这种训练并不能无缝地转化为解释表格数据,在这种数据中,了解行和列之间的关系至关重要。因此, LLMs 可能会误解表格中数值数据的上下文或重要性,从而导致分析不准确。

从本质上讲,生成式人工智能的企业数据策略必须考虑比以前更多的非结构化内容。组织需要评估其正文(文档、电子邮件、知识库)、代码存储库、音频和视频档案以及其他非结构化数据源,而不仅仅是数据仓库中组织整齐的表。

为传统 ML 合成数据

生成式人工智能可以克服传统机器学习面临的一些长期障碍,尤其是与数据稀缺和隐私限制相关的障碍。通过使用基础模型生成合成数据(密切模仿现实世界分布的人工数据集),组织现在可以解锁以前由于数据稀缺、隐私问题以及与收集和注释大型数据集相关的高昂成本而无法获得的机器学习用例。

例如,在医疗保健领域,合成医学图像已被用来增强现有的数据集。这可以增强诊断模型,同时保护患者的机密性。在金融领域,合成数据可以帮助您模拟市场情景,这有助于在不暴露敏感信息的情况下进行风险评估和算法交易。 模拟不同驾驶条件的合成数据有利于自动驾驶汽车的开发。它有助于在现实生活中难以捕捉的场景中训练计算机视觉系统。通过使用基础模型生成合成数据,组织可以提高机器学习模型的性能,遵守数据隐私法规,并在各个行业中解锁新的用例。