本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据策略
定义明确的数据策略对于成功采用生成式人工智能至关重要。本节探讨了数据策略如何在生成式人工智能采用过程的每个阶段发挥关键作用。它还概述了各执行方面的关键考虑因素。有关生成式 AI 旅程各个阶段的更多信息,请参阅 AWS 规范性指导AWS上的 “采用生成式 AI 的成熟度模型”。
生成式人工智能采用之旅是通过四个关键阶段的结构化进展:
-
Envision — Organizations 探索生成式人工智能概念,建立意识并识别潜在的用例。
-
实验 — Organizations通过结构化的试点项目和概念验证来验证生成式人工智能的潜力,同时建立核心技术能力和基础实施框架。
-
启动 — Organizations 系统地部署具有强大治理、监控和支持机制的生产就绪生成人工智能解决方案,在保持安全和合规标准的同时,提供一致的价值和卓越的运营。
-
规模 — Organizations 通过可重复使用的组件、标准化模式和自助服务平台在企业范围内建立生成式 AI 能力,以加快采用,同时保持自动治理和促进创新。
在所有阶段,都 AWS 强调采用整体方法,将战略与基础设施投资、治理政策、安全框架和运营最佳实践保持一致,以促进负责任和可扩展的人工智能部署。每个阶段都需要在采用的六个基本支柱之间保持一致:业务、人员、治理、平台、安全和运营。这些支柱与AWS 云采用框架 (AWS CAF)
本节更详细地讨论了以下成熟度模型阶段:
第 1 级:Envision
在 Envision 阶段,组织将重点放在规划上,方法是确定合适的用例,绘制实施所需的数据源,为即将到来的实验阶段制定基本的安全和数据访问要求。
在现阶段,以下是采用支柱的协调标准:
-
业务 — 确定与企业目标一致的生成式 AI 的战略用例。评估高价值数据的存储位置及其可访问性。
-
员工 — 通过教育领导层和利益相关者了解数据在采用生成式人工智能中的重要性,培养数据驱动的文化。
-
治理-进行初步数据审计,以评估合规性、隐私问题和潜在的道德风险。制定有关人工智能透明度和问责制的早期政策。
-
平台 — 评估现有的数据基础设施,对内部和外部数据源进行分类,并评估数据质量,以确定生成式 AI 的可行性。
-
安全-开始对数据访问实施访问控制和最低权限原则。确保生成式 AI 模型只能检索用户有权访问的信息。
-
操作 — 为生成式 AI 实验定义收集、清理和标记数据的结构化方法。建立用于数据监控的初始反馈回路。
第 2 级:实验
在实验阶段,组织将验证所需数据的可用性和适用性,以支持已确定的用例的实施。同时,建立一个最低限度的可行数据治理框架,以支持在概念验证中使用真实数据。您可以微调选定的基础模型,也可以将 off-the-shelf模型与检索增强生成 (RAG) 方法结合使用。
在现阶段,以下是采用支柱的协调标准:
-
业务 — 为试点项目定义明确的成功标准,并确保数据可用性满足每个用例的需求。
-
人员 — 组建一个由数据工程师、AI 专家和领域专家组成的跨职能团队。该团队负责验证数据质量和模型与业务需求的一致性。
-
治理 — 起草生成式 AI 数据治理框架。该框架至少应讨论监管合规性和负责任的人工智能指导方针。
-
平台 — 实施早期的数据集成工作,包括结构化和非结构化数据管道。为 RAG 实验设置矢量数据库。
-
安全-强制执行严格的数据权限和合规性检查。在模型训练之前,请确保对个人身份信息或其他敏感信息进行屏蔽或匿名化。
-
运营 — 为量产发布做准备,请建立质量指标以找出差距。
第 3 级:发射
在启动阶段,生成式 AI 解决方案从实验转向全面部署。此时,集成已全面实施,并建立了强大的监控框架来跟踪性能、模型行为和数据质量。我们实施了全面的安全和合规措施,以支持数据隐私、安全和监管合规性。
在现阶段,以下是采用支柱的协调标准:
-
业务-衡量运营效率和业务价值。优化运营成本和资源使用。
-
人员 — 对运营团队进行生成式 AI 模型管理和监控方面的培训。使用正确的数据管理流程。
-
治理 — 完善生成式 AI 数据治理框架。解决监管合规性、模型偏见和负责任的人工智能指导方针。对生成式 AI 数据管道进行持续审计,以验证是否符合不断变化的法规。
-
平台-优化可扩展的基础架构,以支持实时数据摄取、矢量搜索和必要时的微调。
-
安全-部署加密、基于角色的访问控制 (RBAC) 和最低权限访问模型。您可以使用 Amazon Q Business 来控制数据访问,并确保生成式 AI 解决方案仅检索用户有权访问的数据。
-
运营-建立数据可观察性实践。跟踪数据沿袭、来源和质量指标,以便在扩展之前识别差距。
第 4 级:比例
在规模化阶段,重点转移到自动化、标准化和企业范围的采用上。Organizations 建立可重复使用的数据管道,实施可扩展的治理框架,并实施强大的策略来支持数据的可访问性、安全性和合规性。此阶段使数据产品大众化。这可以帮助整个组织的团队无缝开发和部署新的生成式 AI 解决方案,同时保持一致性、质量和控制力。
在现阶段,以下是采用支柱的协调标准:
-
业务 — 使生成式 AI 项目与长期业务目标保持一致。专注于收入增长、成本降低和客户满意度。
-
人员 — 开发企业范围内的人工智能素养计划,并通过人工智能卓越中心(CoEs)将人工智能的采用嵌入到业务职能中。
-
治理 — 标准化跨部门的 AI 治理政策,以提高 AI 决策的一致性。
-
平台 — 投资使用云原生解决方案进行联合数据访问和处理的可扩展 AI 数据平台。
-
安全-实施自动合规监控、强大的数据丢失防护 (DLP) 和持续的威胁评估。
-
运营 — 建立 AI 可观察性框架。大规模集成反馈循环、异常检测和模型性能分析。