翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 1. データセントリックな管理
<a name="data-management"></a>

データ管理とは、トレーニング、テスト、推論に使用されるデータが適切に管理、保護、検証されるようにする方法です。大規模なモデルを構築する場合、データは高いモデルパフォーマンスを可能にする主要な要素です。


|  |  | 
| --- |--- |
| **1.1 データリポジトリ** | データリポジトリには、データを追跡し、その送信元を確認する機能が必要です。新しいデータを追加または削除すると、データリポジトリはポイントインタイムリカバリでそれらの変更を記録します。データリポジトリでは、ラベルデータの追跡と処理の方法、および中間データアーティファクトの追跡方法を考慮する必要があります。 | 
| **1.2 多様なデータソースの統合** | アプリケーションによっては、モデルのトレーニングに多くのソースからのデータが必要になる場合があります。モデルを構築するには、利用可能なデータソースとそれらがどのように結びついているかを ML プラクティショナーに通知するマニフェストを設計し、維持することが重要です。 | 
| **1.3 データスキーマの検証** | モデルデータをフィードするには、トレーニングデータが同種であることが重要です。Amazon Simple Storage Service (Amazon S3) などのデータレイクソリューションやドキュメントデータストアに保存されているデータには、変換やその他の探索的分析が必要になる場合があります。 | 
| **1.4 データバージョニングとリネージュ** | 本番環境で使用する可能性のあるモデルをトレーニングする場合、結果を再現でき、モデル全体のパフォーマンスをよりよく理解するために、[アブレーション研究](https://arxiv.org/abs/1901.08644)を確実に実行できる必要があります。この再現性には、トレーニングデータの状態を追跡することが不可欠です。[データバージョン管理 (DVC)](https://github.com/treeverse/dvc) などのツールが役立ちます。 | 
| **1.5 ワークフローのラベル付け** | プロジェクトの開始時にラベル付きデータが使用できない場合は、ラベル付きデータの作成が必要になることが多くあります。Amazon SageMaker Ground Truth などのツールでは、入力データを適切に構造化する必要があり、定義されたテスト済みのラベル付けジョブが必要です。ラベル付けのために内部または外部のワークフォースを使用する必要があります。その後、データを冗長ラベル付けまたは機械学習アプローチを使用して検証し、トレーニングデータセットの外れ値またはエラーを特定する必要があります。 | 
| **1.6 オンラインおよびオフラインの特徴量ストレージ** | 特徴量やモデル入力を再利用できるように、ML システムは[特徴量ストア](https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store.html)、または特徴量と関連するメタデータのための一元化されたストアを備えています。オンラインストアまたはオフラインストアを作成できます。低レイテンシーのリアルタイム推論のユースケースには、オンラインストアを使用します。トレーニングとバッチ推論にはオフラインストアを使用します。  |