Prendi in considerazione una maggiore larghezza di banda di rete o un adattatore Elastic Fabric per applicazioni con comunicazioni elevate Inter-Node Pianificazione del consumo di indirizzi IP su istanze GPU di grandi dimensioni

Rete

Suggerimento

Esplora le best practice tramite i workshop Amazon EKS.

Prendi in considerazione una maggiore larghezza di banda di rete o un adattatore Elastic Fabric per applicazioni con comunicazioni elevate Inter-Node

Per carichi di lavoro di formazione distribuiti su Amazon EKS con elevate esigenze di comunicazione tra nodi, prendi in considerazione la possibilità di selezionare istanze con una larghezza di banda di rete maggiore o Elastic Fabric Adapter (EFA). Prestazioni di rete insufficienti possono ostacolare il trasferimento dei dati, rallentando le attività di machine learning come l'addestramento distribuito su più GPU. Tieni presente che i carichi di lavoro di inferenza in genere non hanno un'elevata comunicazione tra i nodi.

Esempio

Ad esempio, utilizzando Karpenter:


apiVersion: v1
kind: Pod
metadata:
  name: ml-workload
spec:
  nodeSelector:
    karpenter.k8s.aws/instance-network-bandwidth: "100000"  # 100 Gbps in Mbps
    node.kubernetes.io/instance-type: p5.48xlarge  # EFA-enabled instance
  containers:
  - name: training-job
    image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6`
    resources:
      limits:
        vpc.amazonaws.com/efa: 1  # Requires EFA device plugin

Assicurati che strumenti come MPI e NCCL siano installati nell'immagine del tuo container per sfruttare EFA per i lavori di formazione.

Pianificazione del consumo di indirizzi IP su istanze GPU di grandi dimensioni

Per impostazione predefinita, il plug-in Amazon VPC CNI prealloca gli indirizzi IP per garantire che i pod possano essere pianificati rapidamente, mantenendo un ENI di riserva completo collegato e popolato con IP. Su istanze di grandi dimensioni, ciò può comportare la prenotazione di dozzine di IP per nodo anche quando sono in esecuzione solo pochi pod.

Questa discrepanza è comune nei carichi di lavoro di addestramento e inferenza in cui la densità di pod per nodo è bassa. Su scala di cluster, specialmente durante gli eventi di scalabilità automatica che attivano molti nodi GPU con pochi pod ciascuno, ciò può portare all'esaurimento dell'IP della sottorete anche se l'utilizzo effettivo dell'IP è basso.

Per ovviare a questo problema, regolate le variabili, and in modo che corrispondano alla WARM_IP_TARGET densità effettiva del MINIMUM_IP_TARGET pod. WARM_ENI_TARGET Maggiori informazioni nelle impostazioni dei target ENI e IP di VPC CNI.

Per una guida completa sull'ottimizzazione del consumo IP, consulta Ottimizzazione dell'utilizzo degli indirizzi IP.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Inferenza CPU

Sicurezza