As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Redes
dica
Inscreva-se
Considere maior largura de banda de rede ou adaptador de malha elástica para aplicativos com alta comunicação Inter-Node
Para cargas de trabalho de treinamento distribuídas no Amazon EKS com altas demandas de comunicação entre nós, considere selecionar instâncias com maior largura de banda de rede ou Elastic Fabric Adapter (EFA). O desempenho insuficiente da rede pode dificultar a transferência de dados, retardando as tarefas de aprendizado de máquina, como o treinamento distribuído de várias GPUs. Observe que as cargas de trabalho de inferência normalmente não têm alta comunicação entre nós.
Exemplo
Por exemplo, usando o Karpenter:
apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin
Garanta que ferramentas como MPI e NCCL estejam instaladas em sua imagem de contêiner para aproveitar o EFA em trabalhos de treinamento.
Planejando o consumo de endereços IP em grandes instâncias de GPU
Por padrão, o plug-in CNI da Amazon VPC pré-aloca endereços IP para garantir que os pods possam ser programados rapidamente, mantendo um ENI livre completo anexado e preenchido com IPs. Em instâncias grandes, isso pode resultar na reserva de dezenas de IPs por nó, mesmo quando apenas alguns pods estão em execução.
Essa incompatibilidade é comum em cargas de trabalho de treinamento e inferência em que a densidade de pods por nó é baixa. Em escala de cluster, especialmente durante eventos de escalonamento automático que ativam muitos nós de GPU com poucos pods cada, isso pode levar à exaustão do IP da sub-rede, mesmo que a utilização real do IP seja baixa.
Para mitigar isso, ajuste as WARM_ENI_TARGET variáveisWARM_IP_TARGET,MINIMUM_IP_TARGET, e para corresponder à densidade real da cápsula. Mais informações nas configurações de destino de ENI e IP da VPC CNI
Para obter um guia completo sobre como otimizar o consumo de IP, consulte Otimizando a utilização do endereço IP.