SageMaker HyperPod 叢集管理 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod 叢集管理

下列主題討論如何記錄和管理 SageMaker HyperPod 叢集。

記錄 SageMaker HyperPod 事件

來自 SageMaker HyperPod 的所有事件和日誌都會儲存至 Amazon CloudWatch,位於日誌群組名稱 /aws/sagemaker/Clusters/[ClusterName]/[ClusterID] 之下。每次呼叫 CreateCluster API 都會建立新的日誌群組。下列清單包含每個日誌群組中收集的所有可用日誌串流。

日誌群組名稱 日誌串流名稱
/aws/sagemaker/Clusters/[ClusterName]/[ClusterID] LifecycleConfig/[instance-group-name]/[instance-id]

在執行個體層級記錄 SageMaker HyperPod

您可以在叢集執行個體設定期間存取發佈至 CloudWatch 的 LifecycleScript 日誌。所建立叢集內的每個執行個體都會產生個別的日誌串流,並以 LifecycleConfig/[instance-group-name]/[instance-id] 格式區分。

寫入 /var/log/provision/provisioning.log 的所有日誌都會上傳至先前的 CloudWatch 串流。1.architectures/5.sagemaker_hyperpods/LifecycleScripts/base-config 中的範例 LifecycleScripts 會將其 stdoutstderr 重新導向至此位置。如果您使用自訂指令碼,請將日誌寫入 /var/log/provision/provisioning.log 位置,讓它們可在 CloudWatch 中使用。

標記資源

AWS標記系統有助於管理、識別、組織、搜尋和篩選資源。SageMaker HyperPod 支援標記,因此您可以將叢集當作 AWS 資源管理。在叢集建立或編輯現有叢集期間,您可以新增或編輯叢集的標籤。若要進一步了解一般標記,請參閱標記您的 AWS 資源

使用 SageMaker HyperPod 主控台 UI

建立新叢集編輯叢集時,您可以新增、移除或編輯標籤。

使用 SageMaker HyperPod API

當您以 JSON 格式撰寫 CreateClusterUpdateCluster API 請求檔案時,請編輯 Tags 區段。

針對 SageMaker AI 使用 AWS CLI 標記命令

標記叢集

使用 aws sagemaker add-tags,如下所示。

aws sagemaker add-tags --resource-arn cluster_ARN --tags Key=string,Value=string

取消標記叢集

使用 aws sagemaker delete-tags,如下所示。

aws sagemaker delete-tags --resource-arn cluster_ARN --tag-keys "tag_key"

列出資源的標籤

使用 aws sagemaker list-tags,如下所示。

aws sagemaker list-tags --resource-arn cluster_ARN