Considere maior largura de banda de rede ou adaptador de malha elástica para aplicativos com alta comunicação Inter-Node Planejando o consumo de endereços IP em grandes instâncias de GPU

Redes

dica

Inscreva-se nos próximos AI/ML workshops do Amazon EKS.

Considere maior largura de banda de rede ou adaptador de malha elástica para aplicativos com alta comunicação Inter-Node

Para cargas de trabalho de treinamento distribuídas no Amazon EKS com altas demandas de comunicação entre nós, considere selecionar instâncias com maior largura de banda de rede ou Elastic Fabric Adapter (EFA). O desempenho insuficiente da rede pode dificultar a transferência de dados, retardando as tarefas de aprendizado de máquina, como o treinamento distribuído de várias GPUs. Observe que as cargas de trabalho de inferência normalmente não têm alta comunicação entre nós.

Exemplo

Por exemplo, usando o Karpenter:


apiVersion: v1
kind: Pod
metadata:
  name: ml-workload
spec:
  nodeSelector:
    karpenter.k8s.aws/instance-network-bandwidth: "100000"  # 100 Gbps in Mbps
    node.kubernetes.io/instance-type: p5.48xlarge  # EFA-enabled instance
  containers:
  - name: training-job
    image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6`
    resources:
      limits:
        vpc.amazonaws.com/efa: 1  # Requires EFA device plugin

Garanta que ferramentas como MPI e NCCL estejam instaladas em sua imagem de contêiner para aproveitar o EFA em trabalhos de treinamento.

Planejando o consumo de endereços IP em grandes instâncias de GPU

Por padrão, o plug-in CNI da Amazon VPC pré-aloca endereços IP para garantir que os pods possam ser programados rapidamente, mantendo um ENI livre completo anexado e preenchido com IPs. Em instâncias grandes, isso pode resultar na reserva de dezenas de IPs por nó, mesmo quando apenas alguns pods estão em execução.

Essa incompatibilidade é comum em cargas de trabalho de treinamento e inferência em que a densidade de pods por nó é baixa. Em escala de cluster, especialmente durante eventos de escalonamento automático que ativam muitos nós de GPU com poucos pods cada, isso pode levar à exaustão do IP da sub-rede, mesmo que a utilização real do IP seja baixa.

Para mitigar isso, ajuste as WARM_ENI_TARGET variáveisWARM_IP_TARGET,MINIMUM_IP_TARGET, e para corresponder à densidade real da cápsula. Mais informações nas configurações de destino de ENI e IP da VPC CNI.

Para obter um guia completo sobre como otimizar o consumo de IP, consulte Otimizando a utilização do endereço IP.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Inferência de CPU

Segurança