本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker HyperPod 叢集管理
下列主題討論如何記錄和管理 SageMaker HyperPod 叢集。
記錄 SageMaker HyperPod 事件
來自 SageMaker HyperPod 的所有事件和日誌都會儲存至 Amazon CloudWatch,位於日誌群組名稱 /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] 之下。每次呼叫 CreateCluster API 都會建立新的日誌群組。下列清單包含每個日誌群組中收集的所有可用日誌串流。
| 日誌群組名稱 | 日誌串流名稱 |
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] |
LifecycleConfig/[instance-group-name]/[instance-id] |
在執行個體層級記錄 SageMaker HyperPod
您可以在叢集執行個體設定期間存取發佈至 CloudWatch 的 LifecycleScript 日誌。所建立叢集內的每個執行個體都會產生個別的日誌串流,並以 LifecycleConfig/[instance-group-name]/[instance-id] 格式區分。
寫入 /var/log/provision/provisioning.log 的所有日誌都會上傳至先前的 CloudWatch 串流。1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-configstdout 和 stderr 重新導向至此位置。如果您使用自訂指令碼,請將日誌寫入 /var/log/provision/provisioning.log 位置,讓它們可在 CloudWatch 中使用。
標記資源
AWS標記系統有助於管理、識別、組織、搜尋和篩選資源。SageMaker HyperPod 支援標記,因此您可以將叢集當作 AWS 資源管理。在叢集建立或編輯現有叢集期間,您可以新增或編輯叢集的標籤。若要進一步了解一般標記,請參閱標記您的 AWS 資源。
使用 SageMaker HyperPod 主控台 UI
使用 SageMaker HyperPod API
當您以 JSON 格式撰寫 CreateCluster 或 UpdateCluster API 請求檔案時,請編輯 Tags 區段。
針對 SageMaker AI 使用 AWS CLI 標記命令
標記叢集
使用 aws sagemaker add-tags,如下所示。
aws sagemaker add-tags --resource-arncluster_ARN--tags Key=string,Value=string
取消標記叢集
使用 aws sagemaker delete-tags,如下所示。
aws sagemaker delete-tags --resource-arncluster_ARN--tag-keys"tag_key"
列出資源的標籤
使用 aws sagemaker list-tags,如下所示。
aws sagemaker list-tags --resource-arncluster_ARN