Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rete
Suggerimento
Esplora le
Prendi in considerazione una maggiore larghezza di banda di rete o un adattatore Elastic Fabric per applicazioni con comunicazioni elevate Inter-Node
Per carichi di lavoro di formazione distribuiti su Amazon EKS con elevate esigenze di comunicazione tra nodi, prendi in considerazione la possibilità di selezionare istanze con una larghezza di banda di rete maggiore o Elastic Fabric Adapter (EFA). Prestazioni di rete insufficienti possono ostacolare il trasferimento dei dati, rallentando le attività di machine learning come l'addestramento distribuito su più GPU. Tieni presente che i carichi di lavoro di inferenza in genere non hanno un'elevata comunicazione tra i nodi.
Esempio
Ad esempio, utilizzando Karpenter:
apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin
Assicurati che strumenti come MPI e NCCL siano installati nell'immagine del tuo container per sfruttare EFA per i lavori di formazione.
Pianificazione del consumo di indirizzi IP su istanze GPU di grandi dimensioni
Per impostazione predefinita, il plug-in Amazon VPC CNI prealloca gli indirizzi IP per garantire che i pod possano essere pianificati rapidamente, mantenendo un ENI di riserva completo collegato e popolato con IP. Su istanze di grandi dimensioni, ciò può comportare la prenotazione di dozzine di IP per nodo anche quando sono in esecuzione solo pochi pod.
Questa discrepanza è comune nei carichi di lavoro di addestramento e inferenza in cui la densità di pod per nodo è bassa. Su scala di cluster, specialmente durante gli eventi di scalabilità automatica che attivano molti nodi GPU con pochi pod ciascuno, ciò può portare all'esaurimento dell'IP della sottorete anche se l'utilizzo effettivo dell'IP è basso.
Per ovviare a questo problema, regolate le variabili, and in modo che corrispondano alla WARM_IP_TARGET densità effettiva del MINIMUM_IP_TARGET pod. WARM_ENI_TARGET Maggiori informazioni nelle impostazioni dei target ENI e IP di VPC CNI