

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Rete
<a name="aiml-networking"></a>

**Suggerimento**  
 [Esplora le](https://aws-experience.com/emea/smb/events/series/get-hands-on-with-amazon-eks?trk=4a9b4147-2490-4c63-bc9f-f8a84b122c8c&sc_channel=el) best practice tramite i workshop Amazon EKS.

## Prendi in considerazione una maggiore larghezza di banda di rete o un adattatore Elastic Fabric per applicazioni con comunicazioni elevate Inter-Node
<a name="_consider_higher_network_bandwidth_or_elastic_fabric_adapter_for_applications_with_high_inter_node_communication"></a>

Per carichi di lavoro di formazione distribuiti su Amazon EKS con elevate esigenze di comunicazione tra nodi, prendi in considerazione la possibilità di selezionare istanze con una larghezza di banda di rete maggiore o [Elastic Fabric](https://docs.aws.amazon.com/eks/latest/userguide/node-efa.html) Adapter (EFA). Prestazioni di rete insufficienti possono ostacolare il trasferimento dei dati, rallentando le attività di machine learning come l'addestramento distribuito su più GPU. Tieni presente che i carichi di lavoro di inferenza in genere non hanno un'elevata comunicazione tra i nodi.

 **Esempio** 

Ad esempio, utilizzando Karpenter:

```
apiVersion: v1
kind: Pod
metadata:
  name: ml-workload
spec:
  nodeSelector:
    karpenter.k8s.aws/instance-network-bandwidth: "100000"  # 100 Gbps in Mbps
    node.kubernetes.io/instance-type: p5.48xlarge  # EFA-enabled instance
  containers:
  - name: training-job
    image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6`
    resources:
      limits:
        vpc.amazonaws.com/efa: 1  # Requires EFA device plugin
```

Assicurati che strumenti come MPI e NCCL siano installati nell'immagine del tuo container per sfruttare EFA per i lavori di formazione.

## Pianificazione del consumo di indirizzi IP su istanze GPU di grandi dimensioni
<a name="_planning_for_ip_address_consumption_on_large_gpu_instances"></a>

Per impostazione predefinita, il plug-in Amazon VPC CNI prealloca gli indirizzi IP per garantire che i pod possano essere pianificati rapidamente, mantenendo un ENI di riserva completo collegato e popolato con IP. Su istanze di grandi dimensioni, ciò può comportare la prenotazione di dozzine di IP per nodo anche quando sono in esecuzione solo pochi pod.

Questa discrepanza è comune nei carichi di lavoro di addestramento e inferenza in cui la densità di pod per nodo è bassa. Su scala di cluster, specialmente durante gli eventi di scalabilità automatica che attivano molti nodi GPU con pochi pod ciascuno, ciò può portare all'esaurimento dell'IP della sottorete anche se l'utilizzo effettivo dell'IP è basso.

Per ovviare a questo problema, regolate le variabili, and in modo che corrispondano alla `WARM_IP_TARGET` densità effettiva del `MINIMUM_IP_TARGET` pod. `WARM_ENI_TARGET` Maggiori informazioni nelle impostazioni dei target [ENI e IP di VPC CNI](https://github.com/aws/amazon-vpc-cni-k8s/blob/master/docs/eni-and-ip-target.md).

[Per una guida completa sull'ottimizzazione del consumo IP, consulta Ottimizzazione dell'utilizzo degli indirizzi IP.](https://docs.aws.amazon.com/eks/latest/best-practices/ip-opt.html)