노드 간 통신이 많은 애플리케이션의 경우 더 높은 네트워크 대역폭 또는 탄력적 패브릭 어댑터 고려 대용량 GPU 인스턴스에서 IP 주소 소비 계획

네트워킹

작은 정보

향후 예정된 Amazon EKS AI/ML 워크숍에 등록합니다.

노드 간 통신이 많은 애플리케이션의 경우 더 높은 네트워크 대역폭 또는 탄력적 패브릭 어댑터 고려

노드 간 통신 요구가 높은 Amazon EKS의 분산 훈련 워크로드의 경우 네트워크 대역폭 또는 EFA(Elastic Fabric Adapter)가 더 높은 인스턴스를 선택하는 것이 좋습니다. 네트워크 성능이 충분하지 않으면 데이터 전송에 병목 현상이 발생하여 분산 다중 GPU 훈련과 같은 기계 학습 작업이 느려질 수 있습니다. 추론 워크로드는 일반적으로 노드 간 통신이 높지 않습니다.

예제

예를 들어 Karpenter를 사용하는 경우:


apiVersion: v1
kind: Pod
metadata:
  name: ml-workload
spec:
  nodeSelector:
    karpenter.k8s.aws/instance-network-bandwidth: "100000"  # 100 Gbps in Mbps
    node.kubernetes.io/instance-type: p5.48xlarge  # EFA-enabled instance
  containers:
  - name: training-job
    image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6`
    resources:
      limits:
        vpc.amazonaws.com/efa: 1  # Requires EFA device plugin

훈련 작업에 EFA를 활용하려면 컨테이너 이미지에 MPI 및 NCCL과 같은 도구가 설치되어 있는지 확인합니다.

대용량 GPU 인스턴스에서 IP 주소 소비 계획

기본적으로 Amazon VPC CNI 플러그인은 IP 주소를 미리 할당하여 포드를 신속하게 예약할 수 있도록 하고, 하나의 전체 예비 ENIIPs로 채웁니다. 대규모 인스턴스에서는 몇 개의 포드만 실행 중인 경우에도 노드당 수십 개의 IPs가 예약될 수 있습니다.

이러한 불일치는 노드당 포드 밀도가 낮은 훈련 및 추론 워크로드에서 흔히 발생합니다. 클러스터 규모에서, 특히 포드가 거의 없는 많은 GPU 노드를 가동하는 자동 크기 조정 이벤트에서는 실제 IP 사용률이 낮더라도 서브넷 IP가 소진될 수 있습니다.

이를 완화하려면 실제 포드 밀도에 맞게 WARM_IP_TARGETMINIMUM_IP_TARGET, 및 WARM_ENI_TARGET 변수를 조정합니다. VPC CNI의 ENI 및 IP 대상 설정에 대한 자세한 정보입니다.

IP 소비 최적화에 대한 전체 가이드는 IP 주소 사용률 최적화를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

CPU 추론

보안