Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jaringan
Tip
Daftar
Pertimbangkan Bandwidth Jaringan yang Lebih Tinggi atau Adaptor Kain Elastis Untuk Aplikasi dengan Inter-Node Komunikasi Tinggi
Untuk beban kerja pelatihan terdistribusi di Amazon EKS dengan tuntutan komunikasi antar simpul yang tinggi, pertimbangkan untuk memilih instans dengan bandwidth jaringan yang lebih tinggi atau Elastic Fabric Adapter (EFA). Kinerja jaringan yang tidak memadai dapat menghambat transfer data, memperlambat tugas pembelajaran mesin seperti pelatihan multi-GPU terdistribusi. Perhatikan bahwa beban kerja inferensi biasanya tidak memiliki komunikasi antar simpul yang tinggi.
Contoh
Misalnya, menggunakan Karpenter:
apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin
Pastikan alat seperti MPI dan NCCL dipasang di gambar kontainer Anda untuk memanfaatkan EFA untuk pekerjaan pelatihan.
Perencanaan Konsumsi Alamat IP pada Instans GPU Besar
Secara default, plugin Amazon VPC CNI pra-mengalokasikan alamat IP untuk memastikan pod dapat dijadwalkan dengan cepat, menjaga satu ENI cadangan penuh terpasang dan diisi dengan IP. Pada instance besar, ini dapat mengakibatkan lusinan IP dicadangkan per node bahkan ketika hanya beberapa pod yang berjalan.
Ketidakcocokan ini biasa terjadi pada beban kerja pelatihan dan inferensi di mana kepadatan pod per node rendah. Pada skala cluster, terutama selama peristiwa penskalaan otomatis yang memutar banyak node GPU dengan beberapa pod masing-masing, ini dapat menyebabkan kelelahan IP subnet meskipun pemanfaatan IP sebenarnya rendah.
Untuk menguranginya, atur WARM_ENI_TARGET variabel, WARM_IP_TARGETMINIMUM_IP_TARGET, dan agar sesuai dengan kepadatan pod Anda yang sebenarnya. Info lebih lanjut di pengaturan target ENI dan IP VPC CNI
Untuk panduan lengkap tentang mengoptimalkan konsumsi IP, lihat Mengoptimalkan Pemanfaatan Alamat IP.