ノード間通信が高いアプリケーションには、より高いネットワーク帯域幅または Elastic Fabric Adapter を検討する大規模な GPU インスタンスでの IP アドレス消費の計画

ネットワーク

ヒント

今後開催予定の Amazon EKS AI/ML ワークショップに登録してください。

ノード間通信が高いアプリケーションには、より高いネットワーク帯域幅または Elastic Fabric Adapter を検討する

ノード間通信の需要が高い Amazon EKS の分散トレーニングワークロードの場合は、ネットワーク帯域幅が高いインスタンスまたは Elastic Fabric Adapter (EFA) を選択することを検討してください。ネットワークパフォーマンスが不十分な場合、データ転送がボトルネックになり、分散マルチ GPU トレーニングなどの機械学習タスクが遅くなる可能性があります。推論ワークロードでは通常、ノード間の通信は高くないことに注意してください。

例

たとえば、Karpenter を使用します。


apiVersion: v1
kind: Pod
metadata:
  name: ml-workload
spec:
  nodeSelector:
    karpenter.k8s.aws/instance-network-bandwidth: "100000"  # 100 Gbps in Mbps
    node.kubernetes.io/instance-type: p5.48xlarge  # EFA-enabled instance
  containers:
  - name: training-job
    image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6`
    resources:
      limits:
        vpc.amazonaws.com/efa: 1  # Requires EFA device plugin

トレーニングジョブに EFA を活用するために、MPI や NCCL などのツールがコンテナイメージにインストールされていることを確認します。

大規模な GPU インスタンスでの IP アドレス消費の計画

デフォルトでは、Amazon VPC CNI プラグインは IP アドレスを事前に割り当てて、ポッドを迅速にスケジュールできるようにし、1 つの完全な予備の ENI をアタッチして IPs を入力します。大規模なインスタンスでは、少数のポッドしか実行されていない場合でも、ノードごとに数十の IPs が予約される可能性があります。

この不一致は、ノードあたりのポッド密度が低いトレーニングワークロードと推論ワークロードで一般的です。クラスター規模では、特に、ポッドの少ない多数の GPU ノードをスピンアップする自動スケーリングイベント中、実際の IP 使用率が低い場合でも、サブネット IP が枯渇する可能性があります。

これを軽減するには、WARM_IP_TARGET、MINIMUM_IP_TARGET、および WARM_ENI_TARGET変数を実際のポッド密度に合わせて調整します。詳細については、「VPC CNI の ENI および IP ターゲット設定」を参照してください。

IP 消費の最適化に関する詳細なガイドについては、「IP アドレス使用率の最適化」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

CPU 推論

セキュリティ