EFA 클라이언트 구성 - FSx for Lustre

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EFA 클라이언트 구성

다음 절차에 따라 Elastic Fabric Adapter(EFA)를 통해 FSx for Lustre 파일 시스템에 액세스하도록 Lustre 클라이언트를 설정합니다.

EFA는 다음 운영 체제를 실행하는 Lustre 클라이언트에서 지원됩니다.

  • Amazon Linux 2023(AL2023)

  • Red Hat Enterprise Linux(RHEL) 9.5 이상

  • 커널 버전 6.8 이상의 Ubuntu 22.04 이상

EFA는 아래 나열된 Lustre 클라이언트에서 지원됩니다. 자세한 내용은 Lustre 클라이언트 설치 단원을 참조하십시오.

EFA는 trn2 인스턴스 패밀리를 제외하고 EFA를 지원하는 Nitro v4(또는 그 이상) EC2 인스턴스에서 지원됩니다. Amazon EC2 사용 설명서지원되는 인스턴스 유형을 참조하세요.

1단계: 필수 드라이버 설치

참고

딥 러닝 AMI를 사용하는 경우 EFA 드라이버와 NVIDIA GPUDirect 스토리지(GDS) 드라이버가 모두 사전 설치되어 있으므로이 단계를 건너뛸 수 있습니다.

EFA 드라이버 설치

Amazon EC2 사용 설명서3단계: EFA 소프트웨어 설치의 지침을 따릅니다.

GDS 드라이버 설치(선택 사항)

이 단계는 FSx for Lustre와 함께 NVIDIA GPUDirect 스토리지(GDS)를 사용하려는 경우에만 필요합니다.

요구 사항:

  • Amazon EC2 P5, P5e, P5en 또는 P6-B200 인스턴스

  • NVIDIA GDS 드라이버 버전 2.24.2 이상

클라이언트 인스턴스에 NVIDIA GPUDirect 스토리지 드라이버를 설치하려면
  1. NVIDIA GDS 리포지토리를 복제합니다.

    git clone https://github.com/NVIDIA/gds-nvidia-fs.git
  2. 드라이버를 빌드하고 설치합니다.

    cd gds-nvidia-fs/src/ export NVFS_MAX_PEER_DEVS=128 export NVFS_MAX_PCI_DEPTH=16 sudo -E make sudo insmod nvidia-fs.ko

2단계: Lustre 클라이언트에 대한 EFA 구성

EFA 인터페이스를 사용하여 FSx for Lustre 파일 시스템에 액세스하려면 Lustre EFA 모듈을 설치하고 EFA 인터페이스를 구성해야 합니다.

빠른 설정

Lustre 클라이언트를 빠르게 구성하려면
  1. Amazon EC2 인스턴스에 연결합니다.

  2. 구성 스크립트가 포함된 파일을 다운로드하고 압축을 풉니다.

    curl -O https://docs.aws.amazon.com/fsx/latest/LustreGuide/samples/configure-efa-fsx-lustre-client.zip unzip configure-efa-fsx-lustre-client.zip
  3. configure-efa-fsx-lustre-client 폴더로 변경하고 설정 스크립트를 실행합니다.

    cd configure-efa-fsx-lustre-client sudo ./setup.sh

    스크립트는 다음을 자동으로 수행합니다.

    • Lustre 모듈을 가져옵니다.

    • TCP 및 EFA 인터페이스 구성

    • 재부팅 시 자동 구성을 위한 시스템 서비스를 생성합니다.

    setup.sh 스크립트와 함께 사용할 수 있는 옵션 및 사용 예제 목록은 zip README.md 파일의 파일을 참조하세요.

수동으로 시스템 서비스 관리

시스템 서비스 파일은 /etc/systemd/system/configure-efa-fsx-lustre-client.service에서 생성됩니다. 다음은 몇 가지 유용한 시스템 관련 명령입니다.

# Check status sudo systemctl status configure-efa-fsx-lustre-client.service # View logs sudo journalctl -u configure-efa-fsx-lustre-client.service # View warnings/errors from dmesg sudo dmesg

자세한 내용은 zip README.md 파일의 파일을 참조하세요.

자동 탑재 구성(선택 사항)

부팅 시 Amazon FSx for Lustre 파일 시스템을 자동으로 탑재하는 방법에 대한 자세한 내용은 섹션을 참조하세요Amazon FSx 파일 시스템 자동 마운트.

3단계: EFA 인터페이스

각 FSx for Lustre 파일 시스템에는 모든 클라이언트 인스턴스에서 최대 1024개의 EFA 연결 제한이 있습니다.

configure-efa-fsx-lustre-client.sh 스크립트는 인스턴스 유형에 따라 EFA 인터페이스를 자동으로 구성합니다.

인스턴스 유형 기본 EFA 인터페이스 수
p6-b200.48xlarge

8

p5en.48xlarge

8

p5e.48xlarge

8

p5.48xlarge

8

네트워크 카드가 여러 개인 기타 인스턴스

2

단일 네트워크 카드가 있는 기타 인스턴스

1

클라이언트 인스턴스에 구성된 각 EFA 인터페이스는 FSx for Lustre 파일 시스템에 연결할 때 1024 EFA 연결 제한에 대해 하나의 연결로 계산됩니다.

EFA 인터페이스 수동 관리

EFA 인터페이스가 더 많은 인스턴스는 일반적으로 더 높은 처리량을 지원합니다. 총 EFA 연결 한도 내에 있는 한 인터페이스 수를 사용자 지정하여 특정 워크로드의 성능을 최적화할 수 있습니다.

다음 명령을 사용하여 EFA 인터페이스를 수동으로 관리할 수 있습니다.

  1. 사용 가능한 EFA 디바이스 보기:

    for interface in /sys/class/infiniband/*; do if [ ! -e "$interface/device/driver" ]; then continue; fi driver=$(basename "$(realpath "$interface/device/driver")") if [ "$driver" != "efa" ]; then continue; fi echo $(basename $interface) done
  2. 현재 구성된 인터페이스 보기:

    sudo lnetctl net show
  3. EFA 인터페이스 추가:

    sudo lnetctl net add --net efa --if device_name —peer-credits 32

    device_name을 1단계의 목록에 있는 실제 디바이스 이름으로 바꿉니다.

  4. EFA 인터페이스 제거:

    sudo lnetctl net del --net efa --if device_name

    device_name을 2단계의 목록에 있는 실제 디바이스 이름으로 바꿉니다.