View a markdown version of this page

ネットワーク - Amazon EKS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ネットワーク

ヒント

今後開催予定の Amazon EKS AI/ML ワークショップに登録してください。

ノード間通信が高いアプリケーションには、より高いネットワーク帯域幅または Elastic Fabric Adapter を検討する

ノード間通信の需要が高い Amazon EKS の分散トレーニングワークロードの場合は、ネットワーク帯域幅が高いインスタンスまたは Elastic Fabric Adapter (EFA) を選択することを検討してください。ネットワークパフォーマンスが不十分な場合、データ転送がボトルネックになり、分散マルチ GPU トレーニングなどの機械学習タスクが遅くなる可能性があります。推論ワークロードでは通常、ノード間の通信は高くないことに注意してください。

たとえば、Karpenter を使用します。

apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin

トレーニングジョブに EFA を活用するために、MPI や NCCL などのツールがコンテナイメージにインストールされていることを確認します。

大規模な GPU インスタンスでの IP アドレス消費の計画

デフォルトでは、Amazon VPC CNI プラグインは IP アドレスを事前に割り当てて、ポッドを迅速にスケジュールできるようにし、1 つの完全な予備の ENI をアタッチして IPs を入力します。大規模なインスタンスでは、少数のポッドしか実行されていない場合でも、ノードごとに数十の IPs が予約される可能性があります。

この不一致は、ノードあたりのポッド密度が低いトレーニングワークロードと推論ワークロードで一般的です。クラスター規模では、特に、ポッドの少ない多数の GPU ノードをスピンアップする自動スケーリングイベント中、実際の IP 使用率が低い場合でも、サブネット IP が枯渇する可能性があります。

これを軽減するには、WARM_IP_TARGETMINIMUM_IP_TARGET、および WARM_ENI_TARGET変数を実際のポッド密度に合わせて調整します。詳細については、「VPC CNI の ENI および IP ターゲット設定」を参照してください。

IP 消費の最適化に関する詳細なガイドについては、「IP アドレス使用率の最適化」を参照してください。