

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 1. 以資料為中心的管理
<a name="data-management"></a>

資料管理是確保用於訓練、測試和推論的資料受到適當管理、保護和驗證的做法。大規模建置模型時，資料是可實現高模型效能的主要商品。


|  |  | 
| --- |--- |
| **1.1 資料儲存庫** | 資料儲存庫需要能夠追蹤資料並查看其起始點。新增或移除新資料時，資料儲存庫會在point-in-time復原中記錄這些變更。資料儲存庫應考慮如何追蹤和處理標籤資料，以及如何追蹤中繼資料成品。 | 
| **1.2 多樣化資料來源整合** | 視應用程式而定，訓練您的模型可能需要來自許多來源的資料。設計和維護資訊清單，通知 ML 從業人員可用的資料來源，以及它們如何繫結在一起對於建置模型至關重要。 | 
| **1.3 資料結構描述驗證** | 若要饋送模型資料，訓練資料必須是同質的。對於存放在 Amazon Simple Storage Service (Amazon S3) 等資料湖解決方案或文件資料存放區中的資料，可能需要轉換或其他探索性分析。 | 
| **1.4 資料版本控制和歷程** | 訓練可能用於生產的模型時，您必須能夠重現結果，並能夠可靠地執行[消除研究](https://arxiv.org/abs/1901.08644)，以更好地了解整體模型效能。追蹤訓練資料的狀態對於此重現性至關重要。[資料版本控制 (DVC)](https://github.com/treeverse/dvc) 等工具可以協助執行此操作。 | 
| **1.5 標記工作流程** | 在專案開始時無法使用標記資料的情況下，建立標記資料通常是必要的步驟。Amazon SageMaker Ground Truth 等工具需要適當結構化輸入資料，而且需要已定義和經過測試的標籤工作。必須使用內部或外部標籤工具的人力。然後，應使用備援標籤或機器學習方法來識別訓練資料集中的極端值或錯誤，來驗證資料。 | 
| **1.6 線上和離線功能儲存** | ML 系統具有[功能存放區](https://docs.aws.amazon.com/sagemaker/latest/dg/feature-store.html)或集中式存放區，可存放功能和相關聯的中繼資料，以便重複使用功能或模型輸入。您可以建立線上或離線儲存。針對低延遲的即時推論使用案例使用線上存放區。使用離線存放區進行訓練和批次推論。  | 