生成式 AI 应用程序的数据安全、生命周期和策略 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

生成式 AI 应用程序的数据安全、生命周期和策略

Romain Vivier,Amazon Web Services

2025 年 7 月文档历史记录

生成式 AI 正在改变企业格局。它实现了前所未有的创新、自动化和竞争差异化。但是,充分发挥其潜力的能力不仅取决于强大的模型,还取决于强大而有针对性的数据策略。本指南描述了生成式人工智能计划中出现的特定于数据的挑战,并就如何克服这些挑战和实现有意义的业务成果提供了明确的方向。

生成式人工智能带来的最根本的转变之一是它对大量非结构化和多模态数据的依赖。传统的机器学习通常依赖于结构化的标注数据集。但是,生成式人工智能系统从文本、图像、音频、代码和视频中学习,这些文本、图像、音频、代码和视频通常没有标签且变化很大。因此,Organizations 必须重新评估和扩展其传统数据策略,以纳入这些新的数据类型。这样做可以帮助他们创建更多具有情境感知能力的应用程序,改善用户体验,提高工作效率,加快内容生成,同时减少对手动输入的依赖。

该指南概述了支持有效生成式 AI 部署的完整数据生命周期。这包括准备和清理大规模数据集、实施检索增强生成 (RAG) 管道以使模型的上下文保持最新、对特定领域数据进行微调,以及建立持续的反馈循环。正确完成后,这些活动可以提高模型的性能和相关性。它们还通过更快地交付 AI 用例、改善决策支持和提高运营效率来提供切实的商业价值。

安全和治理被视为成功的关键支柱。该指南解释了如何帮助保护敏感信息、实施访问控制和应对风险(例如幻觉、数据中毒和对抗性攻击)。在生成人工智能工作流程中嵌入强大的治理和监控实践可支持监管合规性要求,有助于保护企业声誉,并建立内部和外部对人工智能系统的信任。它还讨论了与数据相关的代理人工智能挑战,并强调了基于代理的系统中对身份管理、可追溯性和强大安全的需求。

本指南还将数据策略与生成式人工智能采用的每个阶段联系起来:构想、实验、发布和规模。有关此模型的更多信息,请参阅采用生成式 AI 的成熟度模型 AWS。在每个阶段,组织都必须使其数据基础架构、治理模式和运营准备情况与其业务目标保持一致。这种调整可以加快生产路径,降低风险,并确保生成式人工智能解决方案能够在整个企业中负责任和可持续地扩展。

总而言之,强大的数据策略是生成式人工智能成功的先决条件。将数据视为战略资产并投资于治理、质量和安全的组织更有能力自信地部署生成式人工智能。他们可以更快地从实验转向企业范围的转型,并取得可衡量的成果,例如改善的客户体验、运营效率和长期竞争优势。

目标受众

本指南适用于想要为生成式人工智能构建和实施强大且可扩展的数据策略的企业领导者、数据专业人员和技术决策者。 本指南中的建议适用于开始或推进其生成式人工智能之旅的企业。它可以帮助您调整数据策略、治理和安全框架,以最大限度地提高生成式 AI 的商业价值和优势。要理解本指南中的概念和建议,您应该熟悉基本的人工智能和数据概念,并且应该熟悉企业 IT 治理和合规性的基础知识。

目标

根据本指南中的建议修改数据策略可以带来以下好处:

  • 了解传统 ML 和生成式 AI 之间的数据需求和实践有何不同,并了解这些差异对您的企业数据策略意味着什么。

  • 了解传统机器学习的结构化标记数据与推动生成式 AI 的非结构化多模态数据之间的区别。

  • 除了成熟的机器学习实践之外,还要了解为什么生成式 AI 模型需要新的数据准备、集成和治理方法。

  • 了解通过生成式 AI 进行数据合成如何加速更传统的机器学习用例。