

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据策略
<a name="data-strategy"></a>


| **问题** | **响应示例** | 
| --- | --- | 
| 哪些特定的数据类型对你的生成式 AI 工作负载至关重要，其中有多少百分比目前可以访问？ | 客户通话记录和产品评论数据至关重要。目前，这些数据类型中有85％可供我们的生成式人工智能项目访问。 | 
| 您如何确保和衡量数据的质量？ | 我们已经实施了数据质量指标，包括完整性、准确性、一致性和及时性。我们使用自动化工具定期评估这些指标，并有一个专门的团队来清理和充实数据。 | 
| 您的数据中有多少百分比符合生成式人工智能使用的质量标准？ | 目前，我们 78% 的数据符合我们的质量标准。我们的目标是通过改进数据清理流程，在未来 12 个月内实现 95% 的目标。 | 
| 您计划如何建立利益相关者对生成式人工智能中数据使用情况的信任？ | 我们正在组建人工智能伦理委员会，为人工智能决策提供明确的解释，并每季度进行人工智能审计，以确保透明度和公平性。 | 
| 您的数据源和世系文档有多全面？ | 我们维护一个详细的数据目录，其中包括所有数据源的元数据，包括来源、更新频率和使用情况。我们使用数据沿袭工具来跟踪数据在系统中的流动和转换情况。 | 
| 如何确保数据集的多样性以防止 AI 模型出现偏差？ | 我们积极从不同的人群中获取数据，并定期审计我们的数据集是否存在代表性偏差。我们还使用合成数据生成技术来平衡代表性不足的类别。 | 
| 你的关键生成式人工智能模型的数据刷新率是多少？如何确定这个频率？ | 关键模型每周更新一次。此频率由 A/B 测试性能指标决定，我们的目标是两次刷新之间的降级不超过 2%。 | 
| 您维护了多少个版本的关键数据集，持续了多长时间？ | 我们维护每个关键数据集的最后五个版本，每个版本的保留期为 18 个月。 | 
| 有多少跨职能团队参与了你的生成式人工智能计划并可以访问你的数据？ | 我们有三个跨职能团队。每个团队都包括数据科学家、领域专家、伦理学家和业务分析师。 | 
| 您制定了哪些数据治理政策和实践？ | 我们有一个跨职能的数据治理委员会，负责监督我们的数据政策。我们实施了基于角色的访问控制、数据分类方案和定期审计，以确保遵守我们的治理框架。 | 
| 您采取了哪些措施来确保数据隐私、获得适当同意和保持机密性？ | 我们已经实施了符合 GDPR 和 CCPA 的全面数据隐私框架。这包括获得对数据使用的明确同意、实施数据匿名化技术以及定期进行隐私影响评估。 | 
| 在上个季度，您的 AI 训练数据集中有多少百分比经过了偏见审计？ | 上个季度，我们对70％的人工智能训练数据集进行了偏见审计。我们正在实施自动偏见检测工具，以实现 100% 的季度审计。 | 
| 你目前的数据处理能力是多少？你预计未来的生成式 AI 工作负载需要多少能力？ | 我们目前的容量在一年TB/day. We project needing 30 TB/day内为10个，并且正在扩展我们的基础设施以满足这一需求。 | 
| 在平衡数据隐私和生成式人工智能模型的数据需求方面，你的策略是什么？ | 我们正在实施先进的匿名化技术和合成数据生成。我们的目标是在明年将人工智能的可用数据增加40％，同时将隐私风险降低60％。 | 
| 您的机器学习 (ML) 数据集中有多少百分比被准确标注，您的目标准确率是多少？ | 目前，我们 85% 的机器学习数据集都已精确标注。我们的目标是通过采用人工和自动标签技术，在下个季度内实现95％的准确率。 | 