

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 存储
<a name="storage"></a>


| **问题** | **响应示例** | 
| --- | --- | 
| 训练数据将存储在哪里？ | 在云存储（例如 Amazon S3、文件存储、块存储或对象存储）、本地存储等中。 | 
| 训练数据和模型工件（例如容量、耐久性、可用性）的存储要求是什么？ | PB 级存储、高耐久性（99.999999999% 的耐久性）、高可用性等。 | 
| 训练数据和模型工件的数据保留和备份要求是什么？ | 数据保留 *x* 年、每日备份、异地备份等。 | 
| 哪些文件格式主要用于存储 AI 训练数据集（例如 CSV、JSON、Parquet 等 HDF5）？ | Parquet 文件 HDF5 用于结构化数据、大型多维数组和非结构化数据，例如图像和文本。我们使用专门的格式， TFRecord 例如在训练期间优化数据加载。 | 
| 您的训练数据集是如何组织的：作为单个文件、数据库或使用专门的 AI 数据格式？ | 为了灵活起见，中小型数据集作为单独的 Parquet 文件存储在对象存储中。大型数据集存储在分布式数据库 (Cassandra) 中以应对规模。 | 
| 您是否使用任何专门用于生成式 AI 训练数据的数据压缩或编码技术？ | 对于表格数据，我们使用 Parquet 中提供的字典编码和位打包技术。对于图像，我们使用有损 JPEG 压缩，其质量设置针对我们的模型进行了优化。 | 
| 您如何处理训练数据集不同迭代的版本控制和存储？ 这对您的整体存储需求有什么影响？ | 我们使用与机器学习平台集成的数据版本控制系统 (DVC)。 | 