翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする
SageMaker HyperPod での Slurm サポートを使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium FMs GPUs。 A100 H100 アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。さらに、SageMaker HyperPod でのライフサイクル設定のサポートにより、ニーズに最適なコンピューティング環境をカスタマイズし、Amazon SageMaker AI 分散トレーニングライブラリで設定して最適なパフォーマンスを実現できます AWS。
クラスターを操作する
SageMaker HyperPod クラスターは、コンソールユーザーインターフェイス (UI) を介してグラフィカルに、コマンド AWS ラインインターフェイス (CLI) または を介してプログラムで作成、設定、保守できます AWS SDK for Python (Boto3)。Amazon VPC を使用すると、クラスターネットワークを保護でき、最速のスループットを提供する Amazon FSx for Lustre などの VPC 内のリソースによってクラスターを設定することもできます。さらに、クラスターインスタンスグループにさまざまな IAM ロールを付与し、クラスターリソースとユーザーが操作できるアクションを制限することもできます。詳細についてはSageMaker HyperPod Slurm クラスターオペレーションを参照してください。
ML 環境を設定する
SageMaker HyperPod は、HyperPod クラスターに ML 環境をセットアップする SageMaker HyperPod DLAMI を実行します。ユースケースをサポートするライフサイクルスクリプトを提供することにより、DLAMI に追加のカスタマイズを設定できます。ライフサイクルスクリプトの設定方法の詳細については、「SageMaker HyperPod の使用開始」と「ライフサイクルスクリプトを使用した SageMaker HyperPod クラスターのカスタマイズ」を参照してください。
ジョブをスケジュールする
HyperPod クラスターを正常に作成すると、クラスターユーザーはクラスターノード (ヘッドノードやコントローラーノード、ログインノード、ワーカーノードなど) にログインし、機械学習ワークロードを実行するジョブをスケジュールできます。詳細についてはSageMaker HyperPod クラスター上のジョブを参照してください。
ハードウェア障害からの回復性
SageMaker HyperPod はクラスターノードでヘルスチェックを実行し、ワークロード自動再開機能を提供します。HyperPod のクラスター回復性機能を使用すると、障害のあるノードが、ノード数が 16 個を超えるクラスター内の正常なノードに置き換えられた後、最後に保存したチェックポイントからワークロードを再開できます。詳細についてはSageMaker HyperPod クラスターの回復性を参照してください。
クラスターをログ記録および管理する
SageMaker HyperPod リソース使用率メトリクスとライフサイクルログは Amazon CloudWatch にあり、タグ付けすることにより SageMaker HyperPod リソースを管理できます。CreateCluster API を実行するたびに、個別のログストリームが <cluster-name>-<timestamp> 形式の名前で作成されます。ログストリームでは、ホスト名、失敗したライフサイクルスクリプトの名前、stdout や stderr などの失敗したスクリプトからの出力を確認できます。詳細については、「SageMaker HyperPod クラスター管理」を参照してください。
SageMaker AI ツールとの互換性
SageMaker HyperPod を使用すると、SageMaker AI 分散データ並列処理 (SMDDP) ライブラリなど、SageMaker AI が提供する AWS 最適化された集合通信ライブラリを使用してクラスターを設定できます。 SageMaker SMDDP ライブラリは、NVIDIA A100 GPU を搭載した最もパフォーマンスの高い SageMaker AI 機械学習インスタンスの AWS コンピューティングおよびネットワークインフラストラクチャに最適化されたAllGatherオペレーションを実装します。 GPUs 詳細についてはHyperPod での Slurm を使用した分散トレーニングワークロードの実行を参照してください。
UltraServers を使用したインスタンスの配置
SageMaker AI は、別の UltraServer を使用する前に、ある UltraServer のすべてのインスタンスを使用するためのベストエフォート戦略に基づいて、UltraServer 内のインスタンスにジョブを自動的に割り当てます。たとえば、14 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServersがある場合、SageMaker AI は最初の UltraServer のすべてのインスタンスを使用します。20 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServersがある場合、SageMaker AI は最初の UltraServer の 17 個のインスタンスすべてを使用し、2 番目の UltraServer の 3 UltraServer 個を使用します。