GPU 인스턴스에 대해 EKS 최적화 가속 AMI 사용 - Amazon EKS

이 페이지 개선에 도움 주기

이 사용자 가이드에 기여하려면 모든 페이지의 오른쪽 창에 있는 GitHub에서 이 페이지 편집 링크를 선택합니다.

GPU 인스턴스에 대해 EKS 최적화 가속 AMI 사용

Amazon EKS는 GPU 인스턴스에 대해 EKS 최적화 Amazon Linux 및 Bottlerocket AMI를 지원합니다. EKS 최적화 가속 AMI는 가속 Kubernetes 스택에 대해 사전 빌드되고 검증된 운영 체제 이미지를 제공하여 EKS 클러스터에서 AI 및 ML 워크로드 실행을 단순화합니다. 표준 EKS 최적화 AMI에 포함된 코어 Kubernetes 구성 요소 외에도 EKS 최적화 가속 AMI에는 NVIDIA GPU GP EC2 인스턴스를 실행하는 데 필요한 커널 모듈 및 드라이버 그리고 EKS 클러스터의 AWS GPU InferentiaTrainium EC2 인스턴스가 포함됩니다.

아래 표에는 각 EKS 최적화 가속 AMI 변형에 대해 지원되는 GPU 인스턴스 유형이 나와 있습니다. AMI 변형에 대한 최신 업데이트는 GitHub의 EKS 최적화 AL2023 releasesBottlerocket releases를 참조하세요.

EKS AMI 변형 EC2 인스턴스 유형

AL2023 x86_64 NVIDIA

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, g5, g4dn

AL2023 ARM NVIDIA

p6e-gb200, g5g

AL2023 x86_64 Neuron

inf1, inf2, trn1, trn2

Bottlerocket x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, g5, g4dn

Bottlerocket aarch64/arm64 aws-k8s-nvidia

g5g

Bottlerocket x86_64 aws-k8s

inf1, inf2, trn1, trn2

EKS 최적화 NVIDIA AMI

EKS 최적화 가속 AMI를 사용하면 NVIDIA의 클라우드 최종 사용자 라이선스 계약(EULA)에 동의하게 됩니다.

최신 EKS 최적화 NVIDIA AMI를 찾으려면 권장 Amazon Linux AMI ID 검색권장 Bottlerocket AMI ID 검색 섹션을 참조하세요.

EKS 최적화 AL2023 또는 Bottlerocket NVIDIA AMI와 함께 Amazon Elastic Fabric Adaptor(EFA)를 사용하는 경우 EFA 디바이스 플러그인을 별도로 설치해야 합니다. 자세한 내용은 Elastic Fabric Adapter를 사용한 Amazon EKS에서 기계 학습 훈련 실행 섹션을 참조하세요.

EKS AL2023 NVIDIA AMI

EKS 최적화 AL2023 NVIDIA AMI와 함께 NVIDIA GPU 운영자를 사용하는 경우 드라이버 및 툴킷의 운영자 설치는 이미 EKS AMI에 포함되어 있으므로 이를 비활성화해야 합니다. EKS 최적화 AL2023 NVIDIA AMI에는 NVIDIA Kubernetes 디바이스 플러그인 또는 NVIDIA DRA 드라이버가 포함되어 있지 않으므로 별도로 설치해야 합니다. 자세한 내용은 NVIDIA Kubernetes 디바이스 플러그인 설치 섹션을 참조하세요.

표준 EKS AMI 구성 요소 외에도 EKS 최적화 AL2023 NVIDIA AMI에는 다음 구성 요소가 포함됩니다.

  • NVIDIA 드라이버

  • NVIDIA CUDA 사용자 모드 드라이버

  • Nvidia 컨테이너 툴킷

  • NVIDIA 패브릭 관리자

  • NVIDIA persistenced

  • NVIDIA IMEX 드라이버

  • NVIDIA NVLink 서브넷 관리자

  • EFA 최소(커널 모듈 및 rdma-core)

NVIDIA CUDA 사용자 모드 드라이버 및 애플리케이션 컨테이너 내에서 사용되는 CUDA 런타임/라이브러리에 대한 자세한 내용은 NVIDIA 설명서를 참조하세요. nvidia-smi에 표시된 CUDA 버전은 호스트에 설치된 NVIDIA CUDA 사용자 모드 드라이버의 버전이며, 이는 애플리케이션 컨테이너에 사용되는 CUDA 런타임/라이브러리와 호환되어야 합니다.

EKS 최적화 AL2023 NVIDIA AMI는 Kubernetes 버전 1.33 이상에서 커널 6.12, 모든 Kubernetes 버전에서 NVIDIA 드라이버 580 버전을 지원합니다. CUDA 13 이상을 사용하려면 NVIDIA 580 드라이버가 필요합니다.

AMI에 포함된 구성 요소 버전에 대한 자세한 내용은 GitHub의 EKS 최적화 AL2023 releases를 참조하세요. EKS AMI가 NVIDIA 종속성을 구성하는 방법에 대한 자세한 내용은 EKS AL2023 NVIDIA AMI 설치 스크립트커널 로드 스크립트를 참조하세요. dnf list installed 명령을 사용하여 실행 중인 EC2 인스턴스에 설치된 패키지 및 해당 버전의 목록을 찾을 수 있습니다.

EKS 최적화 AMI를 기반으로 사용자 지정 AMI를 빌드하는 경우 운영 체제 업그레이드(즉, dnf upgrade)를 실행하거나 EKS 최적화 AMI에 포함된 Kubernetes 또는 GPU 패키지를 업그레이드하는 것이 지원되지 않거나 권장되지 않습니다. 이 경우 구성 요소 호환성을 위반할 위험이 있기 때문입니다. EKS 최적화 AMI에 포함된 운영 체제 또는 패키지를 업그레이드하는 경우 프로덕션에 배포하기 전에 개발 또는 스테이징 환경에서 철저히 테스트하는 것이 좋습니다.

GPU 인스턴스에 대한 사용자 지정 AMI를 빌드하는 경우 실행할 각 인스턴스 유형 생성 및 패밀리에 대해 별도의 사용자 지정 AMI를 빌드하는 것이 좋습니다. EKS 최적화 가속 AMI는 기본 인스턴스 유형 생성 및 패밀리를 기반으로 런타임에 드라이버와 패키지를 선택적으로 설치합니다. 자세한 내용은 EKS AMI 스크립트에서 installationruntime을 참조하세요.

EKS Bottlerocket NVIDIA AMI

EKS 최적화 Bottlerocket NVIDIA AMI와 함께 NVIDIA GPU 운영자를 사용하는 경우 드라이버, 툴킷 및 디바이스 플러그인의 운영자 설치는 이미 EKS AMI에 포함되어 있으므로 이를 비활성화해야 합니다.

표준 EKS AMI 구성 요소 외에도 EKS 최적화 Bottlerocket NVIDIA AMI에는 다음 구성 요소가 포함됩니다. EFA의 최소 종속성(커널 모듈 및 rdma-core)은 모든 Bottlerocket 변형에 설치됩니다.

  • NVIDIA Kubernetes 디바이스 플러그인

  • NVIDIA 드라이버

  • NVIDIA CUDA 사용자 모드 드라이버

  • Nvidia 컨테이너 툴킷

  • NVIDIA 패브릭 관리자

  • NVIDIA persistenced

  • NVIDIA IMEX 드라이버

  • NVIDIA NVLink 서브넷 관리자

  • NVIDIA MIG 관리자

NVIDIA CUDA 사용자 모드 드라이버 및 애플리케이션 컨테이너 내에서 사용되는 CUDA 런타임/라이브러리에 대한 자세한 내용은 NVIDIA 설명서를 참조하세요. nvidia-smi에 표시된 CUDA 버전은 호스트에 설치된 NVIDIA CUDA 사용자 모드 드라이버의 버전이며, 이는 애플리케이션 컨테이너에 사용되는 CUDA 런타임/라이브러리와 호환되어야 합니다.

설치된 패키지 및 해당 버전에 대한 자세한 내용은 Bottlerocket 설명서의 Bottlerocket 버전 정보를 참조하세요. EKS 최적화 Bottlerocket NVIDIA AMI는 Kubernetes 버전 1.33 이상에서 커널 6.12, Kubernetes 버전 1.34 이상에서 NVIDIA 드라이버 580 버전을 지원합니다. CUDA 13 이상을 사용하려면 NVIDIA 580 드라이버가 필요합니다.

EKS 최적화 Neuron AMI

Amazon EKS에서 Neuron을 사용하는 교육 및 추론 워크로드를 실행하는 방법에 대한 자세한 내용은 다음 참조를 참조하세요.

최신 EKS 최적화 Neuron AMI를 찾으려면 권장 Amazon Linux AMI ID 검색권장 Bottlerocket AMI ID 검색 섹션을 참조하세요.

EKS 최적화 AL2023 또는 Bottlerocket Neuron AMI와 함께 Amazon Elastic Fabric Adaptor(EFA)를 사용하는 경우 EFA 디바이스 플러그인을 별도로 설치해야 합니다. 자세한 내용은 Elastic Fabric Adapter를 사용한 Amazon EKS에서 기계 학습 훈련 실행 섹션을 참조하세요.

EKS AL2023 Neuron AMI

EKS 최적화 AL2023 Neuron AMI에는 Neuron Kubernetes 디바이스 플러그인 또는 Neuron Kubernetes 스케줄러 확장이 포함되어 있지 않으므로 별도로 설치해야 합니다. 자세한 내용은 Neuron Kubernetes 디바이스 플러그인 설치 섹션을 참조하세요.

표준 EKS AMI 구성 요소 외에도 EKS 최적화 AL2023 Neuron AMI에는 다음 구성 요소가 포함됩니다.

  • Neuron 드라이버(aws-neuronx-dkms)

  • Neuron 도구(aws-neuronx-tools)

  • EFA 최소(커널 모듈 및 rdma-core)

EKS AMI가 Neuron 종속성을 구성하는 방법에 대한 자세한 내용은 EKS AL2023 Neuron AMI 설치 스크립트를 참조하세요. AMI에 포함된 구성 요소 버전을 보려면 GitHub의 EKS 최적화 AL2023 releases를 참조하세요. dnf list installed 명령을 사용하여 실행 중인 EC2 인스턴스에 설치된 패키지 및 해당 버전의 목록을 찾을 수 있습니다.

EKS Bottlerocket Neuron AMI

표준 Bottlerocket 변형(aws-k8s)에는 AWS Inferentia 또는 Trainium EC2 인스턴스에서 실행될 때 자동으로 감지 및 로드되는 Neuron 종속성이 포함되어 있습니다.

EKS 최적화 Bottlerocket AMI에는 Neuron Kubernetes 디바이스 플러그인 또는 Neuron Kubernetes 스케줄러 확장이 포함되어 있지 않으므로 별도로 설치해야 합니다. 자세한 내용은 Neuron Kubernetes 디바이스 플러그인 설치 섹션을 참조하세요.

표준 EKS AMI 구성 요소 외에도 EKS 최적화 Bottlerocket Neuron AMI에는 다음 구성 요소가 포함됩니다.

  • Neuron 드라이버(aws-neuronx-dkms)

  • EFA 최소(커널 모듈 및 rdma-core)

EKS 최적화 Bottlerocket AMI를 Neuron 인스턴스와 함께 사용하는 경우 Bottlerocket user-data에서 다음을 구성해야 합니다. 이 설정을 사용하면 컨테이너가 워크로드 사양에 제공된 runAsUserrunAsGroup 값을 기반으로 탑재된 Neuron 디바이스의 소유권을 가질 수 있습니다. Bottlerocket의 Neuron 지원에 대한 자세한 내용은 GitHub의 Quickstart on EKS readme를 참조하세요.

[settings] [settings.kubernetes] device-ownership-from-security-context = true

EKS 최적화 Bottlerocket AMI에 포함된 Neuron 드라이버 버전에 대한 자세한 내용은 Bottlerocket kernel kit changelog를 참조하세요.