Pertimbangkan Bandwidth Jaringan yang Lebih Tinggi atau Adaptor Kain Elastis Untuk Aplikasi dengan Inter-Node Komunikasi Tinggi Perencanaan Konsumsi Alamat IP pada Instans GPU Besar

Jaringan

Tip

Daftar untuk AI/ML lokakarya Amazon EKS mendatang.

Pertimbangkan Bandwidth Jaringan yang Lebih Tinggi atau Adaptor Kain Elastis Untuk Aplikasi dengan Inter-Node Komunikasi Tinggi

Untuk beban kerja pelatihan terdistribusi di Amazon EKS dengan tuntutan komunikasi antar simpul yang tinggi, pertimbangkan untuk memilih instans dengan bandwidth jaringan yang lebih tinggi atau Elastic Fabric Adapter (EFA). Kinerja jaringan yang tidak memadai dapat menghambat transfer data, memperlambat tugas pembelajaran mesin seperti pelatihan multi-GPU terdistribusi. Perhatikan bahwa beban kerja inferensi biasanya tidak memiliki komunikasi antar simpul yang tinggi.

Contoh

Misalnya, menggunakan Karpenter:


apiVersion: v1
kind: Pod
metadata:
  name: ml-workload
spec:
  nodeSelector:
    karpenter.k8s.aws/instance-network-bandwidth: "100000"  # 100 Gbps in Mbps
    node.kubernetes.io/instance-type: p5.48xlarge  # EFA-enabled instance
  containers:
  - name: training-job
    image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6`
    resources:
      limits:
        vpc.amazonaws.com/efa: 1  # Requires EFA device plugin

Pastikan alat seperti MPI dan NCCL dipasang di gambar kontainer Anda untuk memanfaatkan EFA untuk pekerjaan pelatihan.

Perencanaan Konsumsi Alamat IP pada Instans GPU Besar

Secara default, plugin Amazon VPC CNI pra-mengalokasikan alamat IP untuk memastikan pod dapat dijadwalkan dengan cepat, menjaga satu ENI cadangan penuh terpasang dan diisi dengan IP. Pada instance besar, ini dapat mengakibatkan lusinan IP dicadangkan per node bahkan ketika hanya beberapa pod yang berjalan.

Ketidakcocokan ini biasa terjadi pada beban kerja pelatihan dan inferensi di mana kepadatan pod per node rendah. Pada skala cluster, terutama selama peristiwa penskalaan otomatis yang memutar banyak node GPU dengan beberapa pod masing-masing, ini dapat menyebabkan kelelahan IP subnet meskipun pemanfaatan IP sebenarnya rendah.

Untuk menguranginya, atur WARM_ENI_TARGET variabel, WARM_IP_TARGETMINIMUM_IP_TARGET, dan agar sesuai dengan kepadatan pod Anda yang sebenarnya. Info lebih lanjut di pengaturan target ENI dan IP VPC CNI.

Untuk panduan lengkap tentang mengoptimalkan konsumsi IP, lihat Mengoptimalkan Pemanfaatan Alamat IP.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Inferensi CPU

Keamanan