View a markdown version of this page

對包含 AWS ParallelCluster 自訂資源的堆疊進行故障診斷 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

對包含 AWS ParallelCluster 自訂資源的堆疊進行故障診斷

透過 AWS ParallelCluster 自訂資源,CloudFormation 會從新的個別堆疊部署叢集。您可以執行下列步驟來監控叢集建立:

  1. 在 中導覽至 CloudFormation AWS 管理主控台 ,然後在導覽窗格中選擇 Stacks

  2. 選擇具有您為叢集名稱定義之名稱的堆疊。

  3. 如果堆疊狀態為 ROLLBACK_COMPLETE,則會在叢集建立期間發生錯誤。

  4. 選擇堆疊詳細資訊,然後選擇事件索引標籤。

  5. 在您為叢集名稱定義的名稱上搜尋邏輯 ID 上的事件。它具有Status reason提供問題原因的 。

  6. 您也可以選擇堆疊下拉式選單,然後選擇已刪除以查看已刪除堆疊的清單。選取具有叢集名稱的堆疊,並檢視事件以取得更多詳細資訊。

  7. 若要檢視來自管理叢集之自訂資源提供者的輸出,請選取具有描述「AWS ParallelCluster 叢集自訂資源」的堆疊。選擇資源索引標籤,尋找邏輯 ID 為 的資源PclusterCfnFunctionLogGroup,然後遵循指定的連結。檢視顯示 Lambda 偵錯輸出的日誌串流。

  8. 若要對叢集進行疑難排解,請參閱 AWS ParallelCluster 故障診斷