本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
疑難排解
請參閱下列各節,了解如何在使用訓練運算子時針對錯誤進行疑難排解。
我無法安裝訓練運算子
如果您無法安裝訓練運算子,請確定您使用的是支援的元件版本。例如,如果您收到 HyperPod AMI 版本與訓練運算子不相容的錯誤,請更新至最新版本。
不相容的 HyperPod 任務治理版本
安裝期間,您可能會收到錯誤訊息,指出 HyperPod 任務治理的版本不相容。訓練運算子僅會使用 v1.3.0-eksbuild.1 或更新版本。更新您的 HyperPod 任務治理附加元件,然後再試一次。
缺少許可
當您設定訓練運算子或執行任務時,您可能會收到未獲授權執行某些操作的錯誤,例如 DescribeClusterNode。若要解決這些錯誤,請確定您在設定 Amazon EKS Pod 身分識別代理程式時正確設定 IAM 許可。