View a markdown version of this page

PCS での PCS 対応 DLAMI AWS の使用 - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PCS での PCS 対応 DLAMI AWS の使用

AWS PCS 対応 DLAMI Base GPU AMI (Ubuntu 24.04) は、PCS で AI/ML および HPC ワークロードを実行するための AWS AWS が管理する Amazon マシンイメージです。本番稼働用の基盤を提供するため、カスタム AMIs を構築および検証するのではなく、数分でクラスターをデプロイできます。

含まれているもの

PCS 対応 DLAMI は Deep Learning Base GPU AMI (Ubuntu 24.04) 上に構築されており、次の AWS PCS コンポーネントを追加します。

  • PCS エージェント – PCS AWS クラスター管理エージェント

  • Slurm for AWS PCS – サポートされている複数の Slurm バージョンがプリインストールされています。正しいバージョンは、クラスターの設定に基づいて、インスタンスの起動時に自動的にアクティブ化されます。

  • EFS ユーティリティ – Amazon EFS ファイルシステムのマウント用

ソース DLAMI は、オペレーティングシステム (Ubuntu 24.04)、NVIDIA GPU ドライバー、CUDA ツールキット、EFA ドライバー、Lustre クライアント、およびその他の基盤インフラストラクチャを提供します。これらのコンポーネントの詳細については、 Deep Learning AMI リリースノートを参照してください。

PCS 対応 DLAMI は、x86_64 アーキテクチャと arm64 アーキテクチャの両方で使用できます。

注記

PCS 対応 DLAMI には、AI/ML フレームワーク (PyTorch、TensorFlow、JAX)、コンパイラ、数学ライブラリなどのアプリケーションソフトウェアは含まれません。アプリケーションレイヤーを共有ファイルシステムに追加するか、PCS 対応 DLAMI 上にカスタム AMI を構築することで追加できます。

各 AMI の説明フィールドは、基になるソース DLAMI、PCS エージェントバージョン、サポートされている Slurm バージョン、EFS ユーティリティバージョンなど、その内容を要約します。このフィールドは、Amazon EC2 コンソールまたは describe-images API を使用して表示できます。以下は、説明フィールド値の例です。

PCS-Ready DLAMI based on Deep Learning Base OSS Nvidia Driver GPU AMI (Ubuntu 24.04) 20260522. PCS Agent: 1.4.0-1. Slurm: 24.11.7-1, 25.05.7-1, 25.11.2-1. EFS Utils: 2.4.2

現在の PCS 対応 DLAMI を検索する

AWS マネジメントコンソール
コンソールで PCS 対応 DLAMI を検索するには
  1. PCS AWS コンソールを開き、 に移動してコンピューティングノードグループを作成または編集します。

  2. AMI 選択セクションで、PCS 対応 AMIs を選択します。

  3. 選択したインスタンスタイプのアーキテクチャによってフィルタリングされた使用可能な PCS 対応 DLAMIs を示すドロップダウンが表示されます。

  4. AWS PCS 対応 DLAMI Base AMI (Ubuntu 24.04) を選択します。ドロップダウンには、参照用に以下の AMI ID と完全な AMI 名が表示されます。

AWS CLI

Amazon EC2 Systems Manager パラメータストアを使用して、最新の PCS 対応 DLAMI AMI ID を取得できます。region-code を に置き換えます AWS リージョン。

  • x86_64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id \ --query "Parameter.Value" --output text
  • arm64

    aws ssm get-parameter --region region-code \ --name /aws/service/pcs/ami/dlami-base-ubuntu2404/arm64/latest/ami-id \ --query "Parameter.Value" --output text

または、PCS 対応 DLAMI を名前パターンで検索することもできます。

  • x86_64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-x86_64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text
  • arm64

    aws ec2 describe-images --region region-code --owners amazon \ --filters 'Name=name,Values=aws-pcs-ready-dlami-base-ubuntu2404-arm64-*' \ 'Name=state,Values=available' \ --query 'sort_by(Images, &CreationDate)[-1].[Name,ImageId]' --output text

コンピューティングノードグループを作成または更新するときは、AMI ID を使用します。

Infrastructure as Code で を使用する

SSM パラメータパスは、常に最新の AMI ID に解決される安定したリファレンスを提供します。テンプレートでこれを使用して CloudFormation 、再デプロイ時に新しいバージョンを自動的に取得できます。

AmiId: '{{resolve:ssm:/aws/service/pcs/ami/dlami-base-ubuntu2404/x86_64/latest/ami-id}}'

新しいバージョンへの更新

AWS は、ソース Deep Learning Base GPU AMI が更新されたとき、または PCS コンポーネント (PCS エージェントまたは PCS 用 Slurm) が更新されたときに、更新された PCS 対応 DLAMI バージョンをリリースします。クラスターを更新するには、上記の SSM パラメータまたは名前検索を使用して最新の AMI ID を取得し、各コンピューティングノードグループを更新して新しい AMI ID を参照します。