我們不再更新 Amazon Machine Learning 服務或接受新使用者。本文件可供現有使用者使用,但我們不再更新。如需詳細資訊,請參閱什麼是 Amazon Machine Learning。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
將資料分割為訓練和評估資料
ML 的基本目標是將用於訓練模型的資料執行個體「一般化」。我們評估模型的目的,是要估計模型對於其尚未據以訓練之資料的模式一般化品質。不過,由於未來執行個體擁有不明的目標值,且我們無法現在檢查對於未來執行個體的預測準確性,因此我們需要使用一些現在已知其答案的資料,來做為未來資料的代理。使用用於訓練的相同資料來評估模型並不適合,因為這樣會獎勵能「記住」訓練資料的模型,而非從資料加以一般化的模型。
常見策略是採用所有可用的標記資料,並將其分割為訓練和評估子集,通常是 70-80% 的訓練資料、20-30% 的評估資料。ML 系統使用訓練資料來訓練模型,以查看模式並使用評估資料來評估訓練模型的預測品質。ML 系統透過使用各項指標來比較評估預測資料集的評估值與真正值 (稱為基本事實),來評估預測效能。通常,您可以使用評估子集的「最佳」部分,來對您不知道目標答案的未來執行個體進行預測。
Amazon ML 會將透過 Amazon ML 主控台傳送用於訓練模型的資料分割為 70% 用於訓練,30% 用於評估。根據預設,Amazon ML 會依出現在訓練資料來源來源資料的順序使用前 70% 的輸入資料,其餘 30% 的資料則用於評估資料來源。Amazon ML 也可讓您隨機選取 70% 的來源資料進行訓練,而不是使用前 70%,並使用此隨機子集的補充進行評估。您可以使用 Amazon ML APIs 來指定自訂分割比率,並提供在 Amazon ML 外部分割的訓練和評估資料。Amazon ML 也提供分割資料的策略。如需分割策略的詳細資訊,請參閱分割您的資料。