翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# [Storage (ストレージ)]
<a name="storage"></a>


| **質問** | **レスポンスの例** | 
| --- | --- | 
| トレーニングデータはどこに保存されますか？ | クラウドストレージ (Amazon S3、ファイルストレージ、ブロックストレージ、オブジェクトストレージなど）、オンプレミスストレージなど。 | 
| トレーニングデータとモデルアーティファクト (容量、耐久性、可用性など) のストレージ要件は何ですか？ | ペタバイト規模のストレージ、高耐久性 (99.999999999% の耐久性）、高可用性など。 | 
| トレーニングデータとモデルアーティファクトのデータ保持とバックアップの要件は何ですか？ | *x* 年間のデータ保持、日次バックアップ、オフサイトバックアップなど。 | 
| AI トレーニングデータセット (CSV、JSON、Parquet、HDF5 など) の保存に主に使用されるファイル形式はどれですか？ | 構造化データ用の Parquet ファイル、大きな多次元配列用の HDF5、画像やテキストなどの非構造化データ。TFRecord などの特殊な形式を使用して、トレーニング中のデータのロードを最適化します。 | 
| トレーニングデータセットは、個々のファイル、データベース、または特殊な AI データ形式を使用してどのように編成されていますか？ | 小～中規模のデータセットは、柔軟性のためにオブジェクトストレージに個別の Parquet ファイルとして保存されます。大規模なデータセットは、スケールを処理するために分散データベース (Cassandra) に保存されます。 | 
| 生成 AI トレーニングデータ専用のデータ圧縮またはエンコーディング手法を使用していますか？ | 表形式データには、Parquet で利用可能なディクショナリエンコーディングとビットパッキング手法を使用します。イメージの場合、モデルに最適化された品質設定で、損失のある JPEG 圧縮を使用します。 | 
| トレーニングデータセットのさまざまな反復のバージョニングとストレージをどのように処理しますか？ これはストレージの全体的なニーズにどのような影響を与えますか？ | ML プラットフォームと統合されたデータバージョニングシステム (DVC) を使用します。 |