設定 SageMaker HyperPod 可觀測性附加元件 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 SageMaker HyperPod 可觀測性附加元件

下列清單描述設定可觀測性附加元件的先決條件。

若要讓 Amazon SageMaker HyperPod (SageMaker HyperPod) 叢集的指標傳送至 Amazon Managed Service for Prometheus 工作區,並選擇性地在 Amazon Managed Grafana 中檢視它們,請先將下列受管政策和許可連接至您的主控台角色。

  • 若要使用 Amazon Managed Grafana,請在可使用 Amazon Managed Grafana AWS 區域的 中啟用 AWS IAM Identity Center(IAM Identity Center)。如需詳細說明,請參閱《AWS IAM Identity Center 使用者指南》中的 開始使用 IAM Identity Center。如需 Amazon Managed Grafana 可用的 AWS 區域清單,請參閱《Amazon Managed Grafana 使用者指南》中的支援區域

  • 在 IAM Identity Center 中建立至少一個使用者。

  • 確定 Amazon EKS Pod 身分識別代理程式附加元件已安裝在您的 Amazon EKS 叢集中。Amazon EKS Pod 身分識別代理程式附加元件可讓 SageMaker HyperPod 可觀測性附加元件取得憑證,以與 Amazon Managed Service for Prometheus 和 CloudWatch Logs 互動。若要檢查 Amazon EKS 叢集是否有附加元件,請前往 Amazon EKS 主控台,並檢查叢集的附加元件索引標籤。如需如何在未安裝附加元件時安裝附加元件的相關資訊,請參閱《Amazon EKS 使用者指南》中的建立附加元件 (AWS 管理主控台)

  • 在安裝 SageMaker HyperPod 可觀測性附加元件之前,確定您在 SageMaker HyperPod 叢集中至少有一個節點。在此情況下運作的最小 Amazon EC2 執行個體類型為 4xlarge。此最小節點大小要求確保節點可以容納 SageMaker HyperPod 可觀測性附加元件建立的所有 Pod,以及叢集上已執行的任何其他 Pod。

  • 將下列政策和許可新增至角色。

    • AWS 受管政策:AmazonSageMakerHyperPodObservabilityAdminAccess

    • AWS受管政策:AWSGrafanaWorkspacePermissionManagementV2

    • AWS受管政策:AmazonSageMakerFullAccess

    • 設定必要 IAM 角色進行 Amazon Managed Grafana 和 Amazon Elastic Kubernetes Service 附加元件存的其他許可:

      JSON
      { "Version":"2012-10-17", "Statement": [ { "Sid": "CreateRoleAccess", "Effect": "Allow", "Action": [ "iam:CreateRole", "iam:CreatePolicy", "iam:AttachRolePolicy", "iam:ListRoles" ], "Resource": [ "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityGrafanaAccess*", "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityAddonAccess*", "arn:aws:iam::*:policy/service-role/HyperPodObservabilityAddonPolicy*", "arn:aws:iam::*:policy/service-role/HyperPodObservabilityGrafanaPolicy*" ] } ] }
    • 為 Amazon Managed Grafana 管理 IAM Identity Center 使用者所需的其他許可:

      JSON
      { "Version":"2012-10-17", "Statement": [ { "Sid": "SSOAccess", "Effect": "Allow", "Action": [ "sso:ListProfileAssociations", "sso-directory:SearchUsers", "sso-directory:SearchGroups", "sso:AssociateProfile", "sso:DisassociateProfile" ], "Resource": [ "*" ] } ] }

在確定您符合了上述先決條件之後,您可以安裝可觀測性附加元件。

快速安裝可觀測性附加元件
  1. 開啟 Amazon SageMaker AI 主控台,網址為 https://console.aws.amazon.com/sagemaker/

  2. 前往叢集的詳細資訊頁面。

  3. 儀表板索引標籤上,找到名為 HyperPod 監控與可觀測性的附加元件,然後選擇快速安裝

執行可觀測性附加元件的自訂安裝
  1. 前往叢集的詳細資訊頁面。

  2. 儀表板索引標籤上,找到名為 HyperPod 監控與可觀測性的附加元件,然後選擇自訂安裝

  3. 指定您要查看的指標類別。如需這些指標類別的詳細資訊,請參閱SageMaker HyperPod 叢集指標

  4. 指定是否您想要啟用 Amazon CloudWatch Logs。

  5. 指定您是否想要服務建立新的 Amazon Managed Service for Prometheus 工作區。

  6. 若要能夠在 Amazon Managed Grafana 儀表板中檢視指標,請勾選標記為使用 Amazon Managed Grafana 工作區的方塊。您可以指定自己的工作區,或讓服務為您建立新的工作區。

    注意

    Amazon Managed Grafana 不適用於可使用 Amazon Managed Service for Prometheus AWS 區域的所有 。不過,您可以在任何 AWS 區域中設定 Grafana 工作區,並將其設定為從位於不同 AWS 區域的 Prometheus 工作區取得指標資料。如需詳細資訊,請參閱使用 AWS 資料來源組態將 Amazon Managed Service for Prometheus 新增為資料來源,以及連線至 Amazon Managed Service for Prometheus 和開放原始碼 Prometheus 資料來源