Considere un mayor ancho de banda de red o un adaptador Elastic Fabric para aplicaciones con alta Inter-Node comunicación Planifique el consumo de direcciones IP en instancias de GPU de gran tamaño

Red

sugerencia

Inscríbase en los próximos AI/ML talleres de Amazon EKS.

Considere un mayor ancho de banda de red o un adaptador Elastic Fabric para aplicaciones con alta Inter-Node comunicación

Para cargas de trabajo de entrenamiento distribuidas en Amazon EKS con altas demandas de comunicación entre nodos, considere la posibilidad de seleccionar instancias con mayor ancho de banda de red o Elastic Fabric Adapter (EFA). Un rendimiento insuficiente de la red puede obstaculizar la transferencia de datos y ralentizar las tareas de aprendizaje automático, como el entrenamiento distribuido con varias GPU. Tenga en cuenta que las cargas de trabajo de inferencia no suelen tener una alta comunicación entre nodos.

Ejemplo

Por ejemplo, al usar Karpenter:


apiVersion: v1
kind: Pod
metadata:
  name: ml-workload
spec:
  nodeSelector:
    karpenter.k8s.aws/instance-network-bandwidth: "100000"  # 100 Gbps in Mbps
    node.kubernetes.io/instance-type: p5.48xlarge  # EFA-enabled instance
  containers:
  - name: training-job
    image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6`
    resources:
      limits:
        vpc.amazonaws.com/efa: 1  # Requires EFA device plugin

Asegúrese de que herramientas como MPI y NCCL estén instaladas en la imagen de su contenedor para aprovechar la EFA en trabajos de formación.

Planifique el consumo de direcciones IP en instancias de GPU de gran tamaño

De forma predeterminada, el complemento CNI de Amazon VPC preasigna las direcciones IP para garantizar que los pods se puedan programar rápidamente, manteniendo un ENI de repuesto completo adjunto y lleno de IP. En casos grandes, esto puede provocar que se reserven docenas de direcciones IP por nodo, incluso cuando solo se estén ejecutando unos pocos pods.

Este desajuste es común en las cargas de trabajo de entrenamiento e inferencia en las que la densidad de pods por nodo es baja. A escala de clústeres, especialmente durante los eventos de escalado automático que hacen girar muchos nodos de la GPU con pocos pods cada uno, esto puede provocar el agotamiento de la IP de la subred aunque la utilización real de la IP sea baja.

Para mitigar esta situación, ajuste las WARM_ENI_TARGET variables y WARM_IP_TARGETMINIMUM_IP_TARGET, para que coincidan con la densidad real de los pods. Más información en la configuración de objetivos IP y ENI de VPC CNI.

Para obtener una guía completa sobre cómo optimizar el consumo de IP, consulte Optimización del uso de direcciones IP.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Inferencia con CPU

Seguridad