Studio での Slurm クラスターの設定 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Studio での Slurm クラスターの設定

次の手順では、Studio で HyperPod Slurm クラスターを設定する方法について説明します。

  1. ドメインを作成するか、準備します。ドメインの作成については、「Amazon SageMaker AI のセットアップガイド」を参照してください。

  2. (オプション) カスタム FSx for Lustre ボリュームを作成してドメインにアタッチします。

    1. FSx Lustre ファイルシステムが目的のドメインと同じ VPC に配置され、ドメインに配置されているいずれかのサブネット内にあることを確認します。

    2. ドメインへのカスタムファイルシステムの追加」の手順に従ってください。

  3. (オプション) よりスムーズなワークフローを実現するために、クラスターにタグを追加することをお勧めします。タグを追加する方法については、「SageMaker HyperPod クラスターを編集する」を参照し、SageMaker AI コンソールを使用してクラスターを更新します。

    1. Lustre ファイルシステム用 FSx を Studio ドメインにタグ付けします。これは、Studio スペースの起動中にファイルシステムを識別するのに役立ちます。これを行うには、クラスターに次のタグを追加して、FSx ファイルシステム ID である fs-id で識別します。

      タグキー = 「hyperpod-cluster-filesystem」、タグ値 = 「fs-id

    2. Amazon Managed Grafana ワークスペースを Studio ドメインにタグ付けします。これは、Studio のクラスターから Grafana ワークスペースに直接迅速に関連付けるために使用されます。これを行うには、クラスターに次のタグを追加して、Grafana ワークスペース ID である ws-id で識別します。

      タグキー = 「grafana-workspace」、タグ値 = 「ws-id

  4. 実行ロールのアクセス許可ポリシーに以下を追加します。

    SageMaker AI 実行ロールとその編集方法については、「ドメインスペースのアクセス許可と実行ロールを理解する」を参照してください。

    IAM ユーザーまたはグループにポリシーをアタッチする方法については、「IAM ID のアクセス許可の追加および削除」を参照してください。

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "ssm:StartSession", "ssm:TerminateSession" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:CreateCluster", "sagemaker:ListClusters" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "cloudwatch:GetMetricData" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeCluster", "sagemaker:DescribeClusterNode", "sagemaker:ListClusterNodes", "sagemaker:UpdateCluster", "sagemaker:UpdateClusterSoftware" ], "Resource": "arn:aws:sagemaker:us-east-1:111122223333:cluster/*" } ] }
  5. この IAM ロールに、タグキー =「SSMSessionRunAs」、タグの値「os user」でタグを追加します。os user は、Slurm クラスター用に設定したのと同じユーザーです。AWS Systems Manager Agent (SSM Agent) の Run As 機能を使用して、IAM ロールまたはユーザーレベルで SageMaker HyperPod クラスターへのアクセスを管理します。この機能を使用すると、IAM ロールまたはユーザーに関連付けられた OS ユーザーを使用して、各 SSM セッションを開始できます。

    実行ロールにタグを追加する方法については、「IAM ロールにタグ付けする」を参照してください。

  6. Linux と macOS のマネージドノードで Run As サポートを有効にします。Run As 設定はアカウント全体に適用され、すべての SSM セッションが正常に開始するために必要です。

  7. (オプション) Studio for Slurm クラスターのタスクビューを制限する Studio で表示可能なタスクの詳細については、「タスク」を参照してください。

Amazon SageMaker Studio では、HyperPod クラスター ([コンピューティング] の下) に移動すると、クラスターを確認できます。

Studio for Slurm クラスターのタスクビューを制限する

名前空間の手動入力や追加のアクセス許可チェックを必要とせずに、表示が許可されている Slurm タスクを表示するようにユーザーを制限できます。制限はユーザーの IAM ロールに基づいて適用され、効率的で安全なユーザーエクスペリエンスを提供します。次のセクションでは、Studio for Slurm クラスターでタスクビューを制限する方法について説明します。Studio で表示可能なタスクの詳細については、「タスク」を参照してください。

すべての Studio ユーザーは、デフォルトですべての Slurm クラスタータスクを表示、管理、操作できます。これを制限するには、AWS Systems Manager Agent (SSM Agent)Run As 機能を使用して、IAM ロールまたはユーザーレベルで SageMaker HyperPod クラスターへのアクセスを管理します。

これを行うには、IAM ロールにユーザー名やグループなどの特定の識別子をタグ付けします。ユーザーが Studio にアクセスすると、Session Manager は Run As 機能を使用して、IAM ロールタグに一致する特定の Slurm ユーザーアカウントとしてコマンドを実行します。Slurm 設定は、ユーザーアカウントに基づいてタスクの可視性を制限するように設定できます。Studio UI は、Run As 機能を使用してコマンドを実行すると、その特定のユーザーアカウントに表示されるタスクを自動的にフィルタリングします。設定すると、指定された識別子を持つロールを引き受ける各ユーザーは、Slurm 設定に基づいてそれらの Slurm タスクをフィルタリングします。実行ロールにタグを追加する方法については、「IAM ロールにタグ付けする」を参照してください。