

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 多節點平行任務
<a name="multi-node-parallel-jobs"></a>

您可以使用多節點平行任務來執行跨越多個 Amazon EC2 執行個體的單一任務。透過 AWS Batch 多節點平行任務 （也稱為 *Gang 排程*)，您可以執行大規模的高效能運算應用程式和分散式 GPU 模型訓練，而不需要直接啟動、設定和管理 Amazon EC2 資源。 AWS Batch 多節點平行任務與任何支援 IP 型節點間通訊的架構相容。範例包括 Apache MXNet、TensorFlow、Caffe2 或訊息傳遞界面 (MPI)。

多節點平行任務會以單一任務的形式提交。不過，您的任務定義 (或任務提交節點覆寫) 會指定要為任務或哪些節點群組建立的節點數量。每個多節點平行任務皆包含會最先啟動的**主要節點**。主節點啟動後，會啟動和啟動子節點。只有在主節點結束時，任務才會完成。接著會停止所有子節點。如需詳細資訊，請參閱[節點群組](mnp-node-groups.md)。

多節點平行任務節點是單一租用戶。這表示每個 Amazon EC2 執行個體只會執行單一任務容器。

最終任務狀態 (`SUCCEEDED` 或 `FAILED`) 取決主要節點的最終任務狀態。若要取得多節點平行任務的狀態，請使用提交任務時傳回的任務 ID 來描述任務。如果您需要子節點的詳細資訊，請個別描述每個子節點。您可以使用 `#N` 表示法來定址節點 （以 0 開頭）。例如，若要存取任務第二個節點的詳細資訊，請使用 AWS Batch [DescribeJobs](https://docs.aws.amazon.com/batch/latest/APIReference/API_DescribeJobs.html) *API 操作描述 aws\$1batch\$1job\$1id*\$11。`started`、`stoppedAt`、`statusReason` 和 `exit` 多節點平行任務的資訊，將從主要節點填入。

如果您指定任務重試，主節點失敗會導致再次嘗試。子節點失敗不會造成更多嘗試。每次新嘗試的多節點平行任務，皆會更新該嘗試所關聯的子節點。

若要在 上執行多節點平行任務 AWS Batch，您的應用程式程式碼必須包含分散式通訊所需的架構和程式庫。

**Topics**
+ [環境變數](mnp-env-vars.md)
+ [節點群組](mnp-node-groups.md)
+ [MNP 任務的任務生命週期](job-lifecycle.md)
+ [使用 的 MNP 運算環境考量 AWS Batch](mnp-ce.md)