將資料分割為訓練和評估資料

ML 的基本目標是將用於訓練模型的資料執行個體「一般化」。我們評估模型的目的，是要估計模型對於其尚未據以訓練之資料的模式一般化品質。不過，由於未來執行個體擁有不明的目標值，且我們無法現在檢查對於未來執行個體的預測準確性，因此我們需要使用一些現在已知其答案的資料，來做為未來資料的代理。使用用於訓練的相同資料來評估模型並不適合，因為這樣會獎勵能「記住」訓練資料的模型，而非從資料加以一般化的模型。

常見策略是採用所有可用的標記資料，並將其分割為訓練和評估子集，通常是 70-80% 的訓練資料、20-30% 的評估資料。ML 系統使用訓練資料來訓練模型，以查看模式並使用評估資料來評估訓練模型的預測品質。ML 系統透過使用各項指標來比較評估預測資料集的評估值與真正值 (稱為基本事實)，來評估預測效能。通常，您可以使用評估子集的「最佳」部分，來對您不知道目標答案的未來執行個體進行預測。

Amazon ML 會將透過 Amazon ML 主控台傳送用於訓練模型的資料分割為 70% 用於訓練，30% 用於評估。根據預設，Amazon ML 會依出現在訓練資料來源來源資料的順序使用前 70% 的輸入資料，其餘 30% 的資料則用於評估資料來源。Amazon ML 也可讓您隨機選取 70% 的來源資料進行訓練，而不是使用前 70%，並使用此隨機子集的補充進行評估。您可以使用 Amazon ML APIs 來指定自訂分割比率，並提供在 Amazon ML 外部分割的訓練和評估資料。Amazon ML 也提供分割資料的策略。如需分割策略的詳細資訊，請參閱分割您的資料。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

功能處理

訓練模型