

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 儲存
<a name="storage"></a>


| **問題** | **回應範例** | 
| --- | --- | 
| 訓練資料會存放在何處？ | 在雲端儲存體 （例如 Amazon S3、檔案儲存體、區塊儲存體或物件儲存體）、內部部署儲存體等。 | 
| 訓練資料和模型成品的儲存需求為何 （例如，容量、耐用性、可用性）？ | PB 級儲存、高耐用性 (99.999999999% 耐用性）、高可用性等。 | 
| 訓練資料和模型成品的資料保留和備份需求是什麼？ | *x* 年的資料保留、每日備份、異地備份等。 | 
| 哪些檔案格式主要用於存放 AI 訓練資料集 （例如 CSV、JSON、Parquet、HDF5)？ | 用於結構化資料的 Parquet 檔案，以及用於大型多維陣列和非結構化資料的 HDF5，例如影像和文字。我們使用特殊格式，例如 TFRecord，以在訓練期間最佳化資料載入。 | 
| 如何組織訓練資料集：作為個別檔案、在資料庫中或使用特殊 AI 資料格式？ | 中小型資料集會儲存為物件儲存體中的個別 Parquet 檔案，以提供彈性。大型資料集會存放在分散式資料庫 (Cassandra) 中來處理擴展。 | 
| 您是否特別針對生成式 AI 訓練資料使用任何資料壓縮或編碼技術？ | 對於表格式資料，我們使用 Parquet 中提供的字典編碼和位元封裝技術。對於影像，我們使用失真 JPEG 壓縮搭配針對模型最佳化的品質設定。 | 
| 如何處理訓練資料集不同反覆運算的版本控制和儲存？ 這對您的整體儲存需求有何影響？ | 我們使用與 ML 平台整合的資料版本控制系統 (DVC)。 | 