機械学習用のキャパシティブロック - Amazon Elastic Compute Cloud

機械学習用のキャパシティブロック

ML 用のキャパシティブロックを使用すると、短期間の機械学習ワークロードをサポートするため、GPU ベースの高速コンピューティングインスタンスを将来の日付で予約できます。キャパシティブロック内で実行されるインスタンスは、「Amazon EC2 UltraClusters」内に自動的に互いに近く配置され、低レイテンシーでペタビットスケールのノンブロッキングネットワーキングを実現します。

キャパシティブロックを使用して、Amazon EC2 UltraServers のキャパシティを予約することもできます。UltraServers は、低レイテンシー、高帯域幅のアクセラレーター相互接続内で複数の Amazon EC2 インスタンスを接続します。UltraServers を使用することにより、トレーニング、ファインチューニング、推論において、コンピューティングとメモリを大量に消費する AI/ML ワークロードを処理できます。詳細については、「Amazon EC2 UltraServers」を参照してください。

キャパシティブロックを使用すると、GPU インスタンスのキャパシティを今後いつ使用できるかを確認でき、都合のよい時間にキャパシティブロックを開始するようにスケジュールできます。キャパシティブロックを予約すると、GPU インスタンスのキャパシティを予測して確保することができます。料金は必要な時間分しか発生しません。ML ワークロードを一度に数日間または数週間サポートするために GPU が必要であり、GPU インスタンスを使用していない間は予約の料金を支払いたくないという場合は、キャパシティブロックをお勧めします。

キャパシティブロックの一般的なユースケースは以下のとおりです。

  • ML モデルトレーニングと微調整 — ML モデルトレーニングと微調整を完了するために予約した GPU インスタンスに、中断なしにアクセスできます。

  • ML 実験とプロトタイプ — GPU インスタンスを必要とする実験の実行およびプロトタイプの構築を短期間で行えます。

キャパシティブロックは次の仕様で予約できます。

  • 最大 8 週間先の開始時刻を予約する

  • 予約期間を 1 ~ 14 日または最大 182 日の 7 の倍数の日数 (例: 21 日、28 日) に設定する

  • キャパシティブロックごとに最大 64 個のインスタンスを設定する

  • 複数のキャパシティブロック全体で最大 256 個のインスタンスを設定する

Amazon EC2 UltraServers では、各 UltraServer は 1 つのキャパシティブロックに対応します。1 つのリクエストで複数の UltraServer をリクエストできます。

キャパシティブロックを使用して、p6-b200p5p5ep5enp4dp4detrn1trn2 の各インスタンスを予約することができます。キャパシティブロックを使用して、P6e-GB200 および Trn2 (プレビュー) の UltraServer タイプを購入できます。

キャパシティブロックを予約するには、インスタンスタイプまたは UltraServer タイプ、必要なインスタンスまたは UltraServer 数、日数、最も早い開始日、最も遅い終了日など、必要なキャパシティを最初に指定します。そうすると、その要件を満たす、利用可能なキャパシティブロックのサービスを確認できます。キャパシティブロックのサービスには、開始時刻、アベイラビリティーゾーン、予約料金などの詳細が記されています。キャパシティブロックサービスの料金は、サービスが提供される時点の需要と供給の状況によって異なります。キャパシティブロックの予約後に料金が変わることはありません。詳細については、「キャパシティブロックの料金と請求」を参照してください。

キャパシティブロックのサービスを購入すると、選択した日付とインスタンス数で予約が作成されます。キャパシティブロックの予約が開始されたら、起動リクエストで予約 ID を指定すると、インスタンスの起動をターゲットに設定できます。

予約したすべてのインスタンスを使用できるのは、キャパシティブロックの終了時刻の 30 分前 (インスタンスタイプの場合) または 60 分前 (UltraServer タイプの場合) までです。キャパシティブロックの予約が残り 30 分 (インスタンスタイプの場合) または 60 分 (UltraServer タイプの場合) になると、キャパシティブロックで実行中のすべてのインスタンスの終了プロセスが開始されます。この時間を使ってインスタンスをクリーンアップしてから、キャパシティブロックを次の利用者に渡します。当社は、終了プロセスが始まる 10 分前に EventBridge を通じてイベントを送信します。詳細については、「EventBridge を使用してキャパシティブロックをモニタリングする」を参照してください。

サポートされているプラットフォーム

ML 用のキャパシティブロックは、現在、デフォルトテナンシーのインスタンスおよび UltraServer のみをサポートしています。AWS Management Console を使用してキャパシティブロックを購入する場合、デフォルトのプラットフォームは Linux/UNIX です。AWS Command Line Interface AWS CLIまたは AWS SDK を使用してキャパシティブロックを購入する場合、以下のプラットフォームオプションを使用できます。

  • Linux/UNIX

  • Red Hat Enterprise Linux

  • RHEL with HA

  • SUSE Linux

  • Ubuntu Pro

考慮事項

キャパシティブロックを使用するときは、事前に以下の詳細と制限を念頭におきます。

  • P6e-GB200 UltraServer キャパシティブロックの場合、キャパシティブロックの終了時刻の 60 分以上前にインスタンスを終了する必要があります。

  • P6e-GB200 UltraServer キャパシティブロックを使用するには、ダラスローカルゾーン (バージニア北部) ローカルゾーンにオプトインする必要があります。

  • 各キャパシティブロックには最大 64 件、キャパシティブロック全体では最大 256 件のインスタンスを含めることが可能です。

  • 早くて 30 分で開始できるキャパシティブロックサービスを記述できます。

  • キャパシティブロックは、協定世界時 (UTC) の午前 11 時 30 分に終了します。

  • キャパシティブロック内で実行しているインスタンスの終了プロセスは、予約の最終日の協定世界時 (UTC) 午前 11 時に始まります。

  • キャパシティブロックの開始時刻は最大 8 週間先を予約できます。

  • キャパシティブロックはキャンセルはできません。

  • キャパシティブロックを移動または分割することはできません。

  • キャパシティブロックは AWS アカウント間や AWS 組織内で共有することはできません。

  • キャパシティブロックはキャパシティ予約グループでは使用できません。

  • AWS 組織内の全アカウントのキャパシティブロックで予約できるインスタンスの合計数は、特定の日に 64 インスタンスを超えることはできません。

  • キャパシティブロックを使用するには、インスタンスが予約 ID を明確にターゲットにしている必要があります。

  • キャパシティブロック内のインスタンスは、オンデマンドインスタンスの制限にはカウントされません。

  • カスタム AMI を使用する P5 インスタンスの場合は、EFA に必要なソフトウェアと設定があることを確認してください

  • Amazon EKS 管理された型ノードグループについては、「Create a managed node group with Amazon EC2 Capacity Blocks for ML」を参照してください。Amazon EKS セルフ管理された型ノードグループについては、「セルフ管理された型ノードで機械学習用のキャパシティブロックを使用する」を参照してください。

キャパシティブロックを作成したら、キャパシティブロックを使用して次の操作を実行できます。

AWS ParallelClusterの詳細については、とはAWS ParallelClusterを参照してください。

注記

64 インスタンスのキャパシティブロックサイズは、すべての AWS リージョン のすべてのインスタンスタイプでサポートされているわけではありません。