

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在異質叢集上執行訓練任務
<a name="train-heterogeneous-cluster"></a>

透過 SageMaker 訓練的異質叢集功能，您可以使用多種類型的機器學習 (ML) 執行個體執行訓練任務，以便針對不同的機器學習 (ML) 訓練任務和目的提供更完善的資源擴展與使用率。例如，若在具有 GPU 執行個體的叢集上之訓練任務因 CPU 密集任務而遭受低 GPU 使用率和 CPU 瓶頸問題，則使用異質叢集可透過新增更具成本效益的 CPU 執行個體群組，來妥善卸載 CPU 密集型任務、解決此類瓶頸問題，並達到更佳的 GPU 使用率。

**注意**  
此功能可在 SageMaker Python SDK v2.98.0 及較新版本中取得。

**注意**  
這項功能可透過 SageMaker AI [PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/sagemaker.pytorch.html) 和 [TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/sagemaker.tensorflow.html#tensorflow-estimator) 架構估算器類別取得。系統支援的架構為 PyTorch v1.10 或較新版本，以及 TensorFlow v2.6 或較新版本。

請參閱部落格[使用 Amazon SageMaker AI 異質叢集改善模型訓練的價格效能](https://aws.amazon.com/blogs/machine-learning/improve-price-performance-of-your-model-training-using-amazon-sagemaker-heterogeneous-clusters/)。

**Topics**
+ [在 Amazon SageMaker AI 中使用異質叢集設定訓練任務](train-heterogeneous-cluster-configure.md)
+ [在 Amazon SageMaker AI 的異質叢集上執行分散式訓練](train-heterogeneous-cluster-configure-distributed.md)
+ [修改訓練指令碼以指派執行個體群組](train-heterogeneous-cluster-modify-training-script.md)