View a markdown version of this page

네트워킹 - Amazon EKS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

네트워킹

작은 정보

Amazon EKS 워크숍을 통해 모범 사례를 살펴봅니다.

노드 간 통신이 많은 애플리케이션의 경우 더 높은 네트워크 대역폭 또는 탄력적 패브릭 어댑터 고려

노드 간 통신 요구가 높은 Amazon EKS의 분산 훈련 워크로드의 경우 네트워크 대역폭 또는 EFA(Elastic Fabric Adapter)가 더 높은 인스턴스를 선택하는 것이 좋습니다. 네트워크 성능이 충분하지 않으면 데이터 전송에 병목 현상이 발생하여 분산 다중 GPU 훈련과 같은 기계 학습 작업이 느려질 수 있습니다. 추론 워크로드는 일반적으로 노드 간 통신이 높지 않습니다.

예제

예를 들어 Karpenter를 사용하는 경우:

apiVersion: v1 kind: Pod metadata: name: ml-workload spec: nodeSelector: karpenter.k8s.aws/instance-network-bandwidth: "100000" # 100 Gbps in Mbps node.kubernetes.io/instance-type: p5.48xlarge # EFA-enabled instance containers: - name: training-job image: `763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-inference:2.6.0-gpu-py312-cu124-ubuntu22.04-ec2-v1.6` resources: limits: vpc.amazonaws.com/efa: 1 # Requires EFA device plugin

훈련 작업에 EFA를 활용하려면 컨테이너 이미지에 MPI 및 NCCL과 같은 도구가 설치되어 있는지 확인합니다.

대규모 GPU 인스턴스에서 IP 주소 소비 계획

기본적으로 Amazon VPC CNI 플러그인은 IP 주소를 미리 할당하여 포드를 신속하게 예약할 수 있도록 하고, 하나의 전체 예비 ENIIPs로 채웁니다. 대규모 인스턴스에서는 몇 개의 포드만 실행 중인 경우에도 노드당 수십 개의 IPs가 예약될 수 있습니다.

이러한 불일치는 노드당 포드 밀도가 낮은 훈련 및 추론 워크로드에서 흔히 발생합니다. 클러스터 규모에서, 특히 포드가 거의 없는 많은 GPU 노드를 가동하는 오토 스케일링 이벤트에서는 실제 IP 사용률이 낮더라도 서브넷 IP가 고갈될 수 있습니다.

이를 완화하려면 실제 포드 밀도에 맞게 WARM_IP_TARGETMINIMUM_IP_TARGET, 및 WARM_ENI_TARGET 변수를 조정합니다. VPC CNI의 ENI 및 IP 대상 설정에 대한 자세한 정보입니다.

IP 소비 최적화에 대한 전체 가이드는 IP 주소 사용률 최적화를 참조하세요.