Configuración de clientes de EFA - FSx para Lustre

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de clientes de EFA

Utilice los siguientes procedimientos para configurar su cliente de Lustre para acceder a un sistema de archivos FSx para Lustre mediante el Elastic Fabric Adapter (EFA).

EFA es compatible con los clientes de Lustre que ejecutan los siguientes sistemas operativos:

  • Amazon Linux 2023 (AL2023)

  • Red Hat Enterprise Linux (RHEL) 9.5 o posterior

  • Ubuntu 22.04 o posterior con kernel versión 6.8+

El EFA es compatible con los clientes de Lustre que se indican a continuación. Para obtener más información, consulte Instalación del cliente de Lustre.

El EFA se admite en las instancias EC2 de Nitro v4 (o superior) que admiten EFA, excluida la familia de instancias trn2. Consulte Tipos de instancias compatibles en la Guía del usuario de Amazon EC2.

Paso 1: Instalar los controladores necesarios

nota

Si utiliza una AMI de aprendizaje profundo, puede omitir este paso, ya que tanto el controlador EFA como el controlador GPUDirect Storage (GDS) de NVIDIA vienen preinstalados.

Instalación del controlador EFA

Siga las instrucciones del Paso 3: instalación del software EFA de la Guía del usuario de Amazon EC2.

Instale el controlador GDS (opcional)

Este paso solo es necesario si planea usar GDS de NVIDIA con FSx para Lustre.

Requisitos:

  • Instancia de Amazon EC2 de P5, P5e, P5en, P6 B200 o P6 de GB200

  • Controlador GDS de NVIDIA, versión 2.24.2 o superior

Para instalar el controlador de almacenamiento GPS de NVIDIA en su instancia de cliente
  1. Clona el repositorio GDS de NVIDIA:

    git clone https://github.com/NVIDIA/gds-nvidia-fs.git
  2. Compile e instale el controlador:

    cd gds-nvidia-fs/src/ export NVFS_MAX_PEER_DEVS=128 export NVFS_MAX_PCI_DEPTH=16 sudo -E make sudo insmod nvidia-fs.ko

Paso 2: configure EFA para el cliente de Lustre

Para acceder a un sistema de archivos FSx para Lustre mediante una interfaz EFA, debe instalar los módulos EFA de Lustre y configurar las interfaces EFA.

Configuración rápida

Para configurar rápidamente su cliente Lustre
  1. Conéctese a la instancia de Amazon EC2.

  2. Descargue y descomprima el archivo que contiene el script de configuración:

    curl -O https://docs.aws.amazon.com/fsx/latest/LustreGuide/samples/configure-efa-fsx-lustre-client.zip unzip configure-efa-fsx-lustre-client.zip
  3. Cambie a la carpeta de configure-efa-fsx-lustre-client y ejecute el script de configuración:

    cd configure-efa-fsx-lustre-client sudo ./setup.sh

    El script hace lo siguiente de forma automática:

    • Importa módulos de Lustre.

    • Configura las interfaces TCP y EFA.

    • Crea un servicio systemd para la configuración automática al reiniciar.

    Para ver una lista de opciones y ejemplos de uso que puede usar con el script de setup.sh, consulte el archivo de README.md en el archivo zip.

Administrar el servicio systemd manualmente

El archivo de servicio systemd se crea en /etc/systemd/system/configure-efa-FSx-lustre-client.service. Los siguientes son algunos comandos útiles relacionados con systemd:

# Check status sudo systemctl status configure-efa-fsx-lustre-client.service # View logs sudo journalctl -u configure-efa-fsx-lustre-client.service # View warnings/errors from dmesg sudo dmesg

Para obtener más información, consulte el archivo de README.md en el archivo zip.

Configuración de montaje automático (opcional)

Para obtener más información sobre el Montaje automático del sistema de archivos de Amazon FSx para Lustre en el arranque, consulte Montaje automático del sistema FSx de archivos de Amazon.

Paso 3: interfaces de EFA

Cada sistema de archivos de FSx para Lustre tiene un límite máximo de 1024 conexiones EFA en todas las instancias de cliente.

El script de configure-efa-fsx-lustre-client.sh configura automáticamente las interfaces EFA en característica del tipo de instancia.

Tipo de instancia Número predeterminado de interfaces EFA
p6e-gb200.36xlarge

8

p6-b200.48xlarge

8

p5en.48xlarge

8

p5e.48xlarge

8

p5.48xlarge

8

Otras instancias con varias tarjetas de red

2

Otras instancias con una sola tarjeta de red

1

Cada interfaz EFA configurada en una instancia de cliente cuenta como una conexión frente al límite de 1024 conexiones EFA cuando se conecta a un sistema de archivos FSx para Lustre.

Administración manual de las interfaces EFA

Las instancias con más interfaces EFA suelen admitir un mayor rendimiento. Puede personalizar la cantidad de interfaces para optimizar el rendimiento de sus cargas de trabajo específicas, siempre y cuando se mantenga dentro del límite total de conexiones de la EFA.

Puede administrar manualmente las interfaces EFA mediante los siguientes comandos:

  1. Vea los dispositivos EFA disponibles:

    for interface in /sys/class/infiniband/*; do if [ ! -e "$interface/device/driver" ]; then continue; fi driver=$(basename "$(realpath "$interface/device/driver")") if [ "$driver" != "efa" ]; then continue; fi echo $(basename $interface) done
  2. Vea las interfaces actualmente configuradas:

    sudo lnetctl net show
  3. Agregue una interfaz EFA:

    sudo lnetctl net add --net efa --if device_name —peer-credits 32

    Sustituya device_name por un nombre de dispositivo real de la lista del paso 1.

  4. Elimine una interfaz EFA:

    sudo lnetctl net del --net efa --if device_name

    Sustituya device_name por un nombre de dispositivo real de la lista del paso 2.