

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 設定 SageMaker HyperPod 可觀測性附加元件
<a name="hyperpod-observability-addon-setup"></a>

下列清單描述設定可觀測性附加元件的先決條件。

若要讓 Amazon SageMaker HyperPod (SageMaker HyperPod) 叢集的指標傳送至 Amazon Managed Service for Prometheus 工作區，並選擇性地在 Amazon Managed Grafana 中檢視它們，請先將下列受管政策和許可連接至您的主控台角色。
+ 若要使用 Amazon Managed Grafana，請在可使用 Amazon Managed Grafana AWS 區域 的 中啟用 AWS IAM Identity Center (IAM Identity Center)。如需詳細說明，請參閱《AWS IAM Identity Center 使用者指南》**中的 [開始使用 IAM Identity Center](https://docs.aws.amazon.com/singlesignon/latest/userguide/getting-started.html)。如需 Amazon Managed Grafana 可用的 AWS 區域 清單，請參閱《Amazon Managed Grafana 使用者指南》**中的[支援區域](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html#AMG-supported-Regions)。
+ 在 IAM Identity Center 中建立至少一個使用者。
+ 確定 [Amazon EKS Pod 身分識別代理程式](https://docs.aws.amazon.com/eks/latest/userguide/workloads-add-ons-available-eks.html#add-ons-pod-id)附加元件已安裝在您的 Amazon EKS 叢集中。Amazon EKS Pod 身分識別代理程式附加元件可讓 SageMaker HyperPod 可觀測性附加元件取得憑證，以與 Amazon Managed Service for Prometheus 和 CloudWatch Logs 互動。若要檢查 Amazon EKS 叢集是否有附加元件，請前往 Amazon EKS 主控台，並檢查叢集的**附加元件**索引標籤。如需如何在未安裝附加元件時安裝附加元件的相關資訊，請參閱《Amazon EKS 使用者指南》**中的[建立附加元件 (AWS 管理主控台)](https://docs.aws.amazon.com/eks/latest/userguide/creating-an-add-on.html#_create_add_on_console)。
**注意**  
標準執行個體群組需要 Amazon EKS Pod Identity Agent。對於限制執行個體群組 (RIG)，由於網路隔離限制，無法使用 Pod Identity Agent。叢集的執行個體群組執行 IAM 角色用於與 Amazon Managed Service for Prometheus 互動。如需如何設定該角色的資訊，請參閱 [受限執行個體群組的其他先決條件](#hyperpod-observability-addon-rig-prerequisites)。
+ 在安裝 SageMaker HyperPod 可觀測性附加元件之前，確定您在 SageMaker HyperPod 叢集中至少有一個節點。在此情況下運作的最小 Amazon EC2 執行個體類型為 `4xlarge`。此最小節點大小要求確保節點可以容納 SageMaker HyperPod 可觀測性附加元件建立的所有 Pod，以及叢集上已執行的任何其他 Pod。
+ 將下列政策和許可新增至角色。
  + [AWS 受管政策：AmazonSageMakerHyperPodObservabilityAdminAccess](security-iam-awsmanpol-AmazonSageMakerHyperPodObservabilityAdminAccess.md)
  + [AWS 受管政策：AWSGrafanaWorkspacePermissionManagementV2](https://docs.aws.amazon.com/grafana/latest/userguide/security-iam-awsmanpol.html#security-iam-awsmanpol-AWSGrafanaWorkspacePermissionManagementV2)
  + [AWS 受管政策：AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html)
  + 設定必要 IAM 角色進行 Amazon Managed Grafana 和 Amazon Elastic Kubernetes Service 附加元件存的其他許可：

------
#### [ JSON ]

****  

    ```
    {
        "Version":"2012-10-17",		 	 	 
        "Statement": [
            {
                "Sid": "CreateRoleAccess",
                "Effect": "Allow",
                "Action": [
                    "iam:CreateRole",
                    "iam:CreatePolicy",
                    "iam:AttachRolePolicy",
                    "iam:ListRoles"
                ],
                "Resource": [
                    "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityGrafanaAccess*",
                    "arn:aws:iam::*:role/service-role/AmazonSageMakerHyperPodObservabilityAddonAccess*",
                    "arn:aws:iam::*:policy/service-role/HyperPodObservabilityAddonPolicy*",
                    "arn:aws:iam::*:policy/service-role/HyperPodObservabilityGrafanaPolicy*"
                ]
            }
        ]
    }
    ```

------
  + 為 Amazon Managed Grafana 管理 IAM Identity Center 使用者所需的其他許可：

------
#### [ JSON ]

****  

    ```
    {
        "Version":"2012-10-17",		 	 	 
        "Statement": [
            {
                "Sid": "SSOAccess",
                "Effect": "Allow",
                "Action": [
                    "sso:ListProfileAssociations",
                    "sso-directory:SearchUsers",
                    "sso-directory:SearchGroups",
                    "sso:AssociateProfile",
                    "sso:DisassociateProfile"
                ],
                "Resource": [
                    "*"
                ]
            }
        ]
    }
    ```

------

## 受限執行個體群組的其他先決條件
<a name="hyperpod-observability-addon-rig-prerequisites"></a>

如果您的叢集包含受限制的執行個體群組，執行個體群組執行角色必須具有將指標寫入 Amazon Managed Service for Prometheus 的許可。當您使用**快速設定**建立已啟用可觀測性的叢集時，這些許可會自動新增至執行角色。

如果您使用**自訂設定**或將可觀測性新增至現有的 RIG 叢集，請確定每個受限制執行個體群組的執行角色具有下列許可：

```
{
    "Version": "2012-10-17", 		 	 	 
    "Statement": [
        {
            "Sid": "PrometheusAccess",
            "Effect": "Allow",
            "Action": "aps:RemoteWrite",
            "Resource": "arn:aws:aps:us-east-1:account_id:workspace/workspace-ID"
        }
    ]
}
```

以您的、帳戶 ID 和 Amazon Managed Service for Prometheus 工作區 ID 取代 *us-east-1* AWS 區域、*account\$1id* 和 *workspace-*ID。

在確定您符合了上述先決條件之後，您可以安裝可觀測性附加元件。

**快速安裝可觀測性附加元件**

1. 開啟 Amazon SageMaker AI 主控台，網址為 [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 前往叢集的詳細資訊頁面。

1. 在**儀表板**索引標籤上，找到名為 **HyperPod 監控與可觀測性**的附加元件，然後選擇**快速安裝**。

**執行可觀測性附加元件的自訂安裝**

1. 前往叢集的詳細資訊頁面。

1. 在**儀表板**索引標籤上，找到名為 **HyperPod 監控與可觀測性**的附加元件，然後選擇**自訂安裝**。

1. 指定您要查看的指標類別。如需這些指標類別的詳細資訊，請參閱[SageMaker HyperPod 叢集指標](hyperpod-observability-cluster-metrics.md)。

1. 指定是否您想要啟用 Amazon CloudWatch Logs。

1. 指定您是否想要服務建立新的 Amazon Managed Service for Prometheus 工作區。

1. 若要能夠在 Amazon Managed Grafana 儀表板中檢視指標，請勾選標記為**使用 Amazon Managed Grafana 工作區**的方塊。您可以指定自己的工作區，或讓服務為您建立新的工作區。
**注意**  
Amazon Managed Grafana 不適用於可使用 Amazon Managed Service for Prometheus AWS 區域 的所有 。不過，您可以在任何 AWS 區域 中設定 Grafana 工作區，並將其設定為從位於不同 AWS 區域的 Prometheus 工作區取得指標資料。如需詳細資訊，請參閱[使用 AWS 資料來源組態將 Amazon Managed Service for Prometheus 新增為資料來源](https://docs.aws.amazon.com/grafana/latest/userguide/AMP-adding-AWS-config.html)，以及[連線至 Amazon Managed Service for Prometheus 和開放原始碼 Prometheus 資料來源](https://docs.aws.amazon.com/grafana/latest/userguide/prometheus-data-source.html)。