Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Red
sugerencia
Inscríbase
Considere un mayor ancho de banda de red o un adaptador Elastic Fabric para aplicaciones con alta Inter-Node comunicación
Para cargas de trabajo de entrenamiento distribuidas en Amazon EKS con altas demandas de comunicación entre nodos, considere la posibilidad de seleccionar instancias con mayor ancho de banda de red o Elastic Fabric Adapter (EFA). Un rendimiento insuficiente de la red puede obstaculizar la transferencia de datos y ralentizar las tareas de aprendizaje automático, como el entrenamiento distribuido con varias GPU. Tenga en cuenta que las cargas de trabajo de inferencia no suelen tener una alta comunicación entre nodos.
Ejemplo
Por ejemplo, al usar Karpenter:
apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin
Asegúrese de que herramientas como MPI y NCCL estén instaladas en la imagen de su contenedor para aprovechar la EFA en trabajos de formación.
Planifique el consumo de direcciones IP en instancias de GPU de gran tamaño
De forma predeterminada, el complemento CNI de Amazon VPC preasigna las direcciones IP para garantizar que los pods se puedan programar rápidamente, manteniendo un ENI de repuesto completo adjunto y lleno de IP. En casos grandes, esto puede provocar que se reserven docenas de direcciones IP por nodo, incluso cuando solo se estén ejecutando unos pocos pods.
Este desajuste es común en las cargas de trabajo de entrenamiento e inferencia en las que la densidad de pods por nodo es baja. A escala de clústeres, especialmente durante los eventos de escalado automático que hacen girar muchos nodos de la GPU con pocos pods cada uno, esto puede provocar el agotamiento de la IP de la subred aunque la utilización real de la IP sea baja.
Para mitigar esta situación, ajuste las WARM_ENI_TARGET variables y WARM_IP_TARGETMINIMUM_IP_TARGET, para que coincidan con la densidad real de los pods. Más información en la configuración de objetivos IP y ENI de VPC CNI
Para obtener una guía completa sobre cómo optimizar el consumo de IP, consulte Optimización del uso de direcciones IP.