Principes de base EFA Interfaces et bibliothèques prises en charge Types d’instance pris en charge Systèmes d’exploitation pris en charge Restrictions liées à EFA Tarification EFA

Adaptateur Elastic Fabric pour AI/ML les charges de travail HPC sur Amazon EC2

Un Elastic Fabric Adapter (EFA) est un appareil réseau que vous pouvez connecter à votre instance EC2 Amazon pour accélérer les applications d'intelligence artificielle (IA), de Machine Learning (ML) et de calcul haute performance (HPC). L’EFA vous permet d’atteindre les performances d’application d’un cluster AI/ML ou HPC sur site, avec la capacité de mise à l’échelle, la flexibilité et l’élasticité offertes par le AWS Cloud.

EFA offre une latence plus faible et plus cohérente avec un débit plus élevé que le transport TCP utilisé traditionnellement dans des systèmes HPC basés sur le cloud. Il améliore les performances de la communication entre instances, essentielle à la mise à l'échelle AI/ML et aux applications HPC. Il est optimisé pour fonctionner sur l'infrastructure AWS réseau existante et peut évoluer en fonction des exigences de l'application.

EFA s'intègre à Libfabric 1.7.0 et versions ultérieures, et prend en charge la Nvidia Collective Communications Library (NCCL) pour les applications d'IA et de ML, ainsi que Open MPI 4.1 et versions ultérieures et Intel MPI 2019 Update 5 et versions ultérieures pour les applications HPC.

EFA prend en charge l’écriture RDMA (Remote Direct Memory Access) sur la plupart des types d’instances compatibles dotés de Nitro version 4 ou ultérieure. La lecture RDMA est prise en charge sur toutes les instances dotées de Nitro version 4 ou ultérieure. Pour de plus amples informations, veuillez consulter Types d’instance pris en charge.

Table des matières

Principes de base EFA

Un périphérique EFA peut être attaché à une EC2 instance de deux manières :

Utilisation d’une interface EFA traditionnelle, également appelée EFA avec ENA, qui crée à la fois un appareil EFA et celui ENA.
Utilisation d’une interface EFA-unique, qui ne crée que le dispositif EFA.

Le dispositif EFA offre des fonctionnalités telles que le contournement intégré du système d’exploitation et le contrôle de la congestion par le biais du protocole de datagramme de fiabilité évolutive (SRD). Les fonctionnalités de l'appareil EFA permettent une fonctionnalité de transport fiable et à faible latence qui permet à l'interface EFA de fournir de meilleures performances aux applications HPC et ML sur Amazon. EC2 Alors que l’appareil ENA propose un réseau IP traditionnel.

Comparaison d’une pile de logiciels HPC traditionnelle avec une pile qui utilise un EFA.

Traditionnellement, AI/ML les applications utilisent le NCCL et les applications HPC utilisent l'interface MPI (Message Passing Interface) pour s'interfacer avec le transport réseau du système. Dans le AWS cloud, cela signifie que les applications interagissent avec NCCL ou MPI, qui utilisent ensuite la TCP/IP pile du système d'exploitation et le pilote de périphérique ENA pour permettre la communication réseau entre les instances.

Avec une interface EFA traditionnelle (EFA avec ENA) ou EFA uniquement, les AI/ML applications utilisent NCCL et les applications HPC utilisent MPI pour s'interfacer directement avec l'API Libfabric. L’API Libfabric contourne le noyau du système d’exploitation et communique directement avec l’appareil EFA pour placer les paquets sur le réseau. Cela réduit les frais généraux AI/ML et permet aux applications HPC de fonctionner plus efficacement.

Note

Libfabric est un composant essentiel du framework OpenFabrics Interfaces (OFI), qui définit et exporte l'API de l'espace utilisateur d'OFI. Pour plus d'informations, consultez le OpenFabrics site Web de Libfabric.

Différences entre les interfaces réseau ENA, EFA et EFA-unique

Amazon EC2 propose deux types d'interfaces réseau :

les interfaces ENA fournissent toutes les fonctionnalités de réseau et de routage IP traditionnelles requises pour prendre en charge le réseau IP d’un VPC. Pour de plus amples informations, veuillez consulter Activez une mise en réseau améliorée avec ENA sur vos EC2 instances.
Les interfaces EFA (EFA avec ENA) fournissent à la fois le dispositif ENA pour les réseaux IP et le dispositif EFA pour les communications à faible latence et haut débit.
Les interfaces-unique EFA ne prennent en charge que les fonctionnalités des appareils EFA, sans le périphérique ENA pour les réseaux IP traditionnels.

Le tableau suivant offre une comparaison des interfaces réseau ENA, EFA et EFA uniquement.

	ENA	EFA (EFA avec ENA)	EFA-unique
Prend en charge les fonctionnalités de réseau IP	Oui	Oui	Non
Peut être attribué à IPv4 des IPv6 adresses	Oui	Oui	Non
Peut être utilisé comme interface réseau principale pour l’instance	Oui	Oui	Non
Compte pour la limite d’attachement de l’ENI, pour l’instance	Oui	Oui	Oui
Prise en charge de types d’instances	Pris en charge sur tous les types d’instances basées sur Nitro	Types d’instance pris en charge	Types d’instance pris en charge
Dénomination des paramètres dans EC2 APIs	`interface`	`efa`	`efa-only`
Dénomination des champs dans EC2 la console	Aucune sélection	EFA avec ENA	EFA-unique

Interfaces et bibliothèques prises en charge

EFAs prend en charge les interfaces et bibliothèques suivantes :

Ouvrez MPI 4.1 et versions ultérieures
Intel MPI 2019 Update 5 et ultérieure
NVIDIA Collective Communications Library (NCCL) 2.4.2 et versions ultérieures
AWS Neuron SDK version 2.3 et versions ultérieures

Types d’instance pris en charge

Tous les types d’instance suivants prennent en charge EFA. En outre, les tableaux indiquent la prise en charge de la lecture RDMA et de l’écriture RDMA pour les types d’instances.

Nitro v6

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
8 m x 48 x large	Oui	Oui
m8a.metal-48xl	Oui	Oui
8 Go, 16 x large	Oui	Oui
8 Go, 24 x large	Oui	Oui
8 Go, 48 x large	Oui	Oui
8 mm x 16 x large	Oui	Oui
8 mm, 24 x large	Oui	Oui
8 mm x 48 x large	Oui	Oui
m8i.48xlarge	Oui	Oui
m8i.96xlarge	Oui	Oui
m8i.metal-48xl	Oui	Oui
m8i.metal-96xl	Oui	Oui
m 8 id.48 x large	Oui	Oui
M8 id.96 x large	Oui	Oui
m8id.metal-48xl	Oui	Oui
m8id.metal-96xl	Oui	Oui
Calcul optimisé
environ 8 x 48 x large	Oui	Oui
c8a.metal-48xl	Oui	Oui
8 Go, 16 x large	Oui	Oui
8 Go, 24 x large	Oui	Oui
8 Go, 48 x large	Oui	Oui
c8gb.metal-24xl	Oui	Oui
c8gb.metal-48xl	Oui	Oui
c8gn.16xlarge	Oui	Oui
c8gn.24xlarge	Oui	Oui
c8gn.48xlarge	Oui	Oui
c8gn.metal-24xl	Oui	Oui
c8gn.metal-48xl	Oui	Oui
8 x 48 x large	Oui	Oui
c8i.96xlarge	Oui	Oui
c8i.metal-48xl	Oui	Oui
c8i.metal-96xl	Oui	Oui
C8 id.48 x large	Oui	Oui
C8 id.96 x large	Oui	Oui
c8id.metal-48xl	Oui	Oui
c8id.metal-96xl	Oui	Oui
Mémoire optimisée
r8a. 48 x large	Oui	Oui
r8a.metal-48xl	Oui	Oui
r8gb.16xlarge	Oui	Oui
r8gb.24xlarge	Oui	Oui
8 Go, 48 x large	Oui	Oui
r8gb.metal-24xl	Oui	Oui
r8gb.metal-48xl	Oui	Oui
r8gn.16xlarge	Oui	Oui
r8gn.24xlarge	Oui	Oui
r8gn.48xlarge	Oui	Oui
r8gn.metal-24xl	Oui	Oui
r8gn.metal-48xl	Oui	Oui
r8i.48xlarge	Oui	Oui
r8i.96xlarge	Oui	Oui
r8i.metal-48xl	Oui	Oui
r8i.metal-96xl	Oui	Oui
R8id.48xlarge	Oui	Oui
8 id.96 x large	Oui	Oui
r8id.metal-48xl	Oui	Oui
r8id.metal-96xl	Oui	Oui
x 8 aedz. 24 x large	Oui	Oui
x8aedz.metal-24xl	Oui	Oui
8 x 48 x large	Oui	Oui
x 8 x 64 x large	Oui	Oui
x 8 x 96 x large	Oui	Oui
x8i.metal-48xl	Oui	Oui
x8i.metal-96xl	Oui	Oui
Stockage optimisé
i8ge.48xlarge	Oui	Non
i8ge.metal-48xl	Oui	Non
Calcul accéléré
7e x 8 x large	Oui	Oui
G7E, 12 x large	Oui	Oui
g7e x 24 x large	Oui	Oui
g7e 48 x large	Oui	Oui
p6-b200.48xlarge	Oui	Oui
p6-b 300,48 x large	Oui	Oui

Nitro v5

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
m8g.24xlarge	Oui	Non
m8g.48xlarge	Oui	Non
m8g.metal-24xl	Oui	Non
m8g.metal-48xl	Oui	Non
m8gd.24xlarge	Non	Non
m8gd.48xlarge	Non	Non
m8gd.metal-24xl	Non	Non
m8gd.metal-48xl	Non	Non
Calcul optimisé
c7gn.16xlarge	Oui	Non
c7gn.metal	Oui	Non
c8g.24xlarge	Oui	Non
c8g.48xlarge	Oui	Non
c8g.metal-24xl	Oui	Non
c8g.metal-48xl	Oui	Non
c8gd.24xlarge	Non	Non
c8gd.48xlarge	Non	Non
c8gd.metal-24xl	Non	Non
c8gd.metal-48xl	Non	Non
Mémoire optimisée
r8g.24xlarge	Non	Non
r8g.48xlarge	Non	Non
r8g.metal-24xl	Non	Non
r8g.metal-48xl	Non	Non
r8gd.24xlarge	Non	Non
r8gd.48xlarge	Non	Non
r8gd.metal-24xl	Non	Non
r8gd.metal-48xl	Non	Non
x8g.24xlarge	Non	Non
x8g.48xlarge	Non	Non
x8g.metal-24xl	Non	Non
x8g.metal-48xl	Non	Non
Stockage optimisé
i7ie.48xlarge	Oui	Non
i7ie.metal-48xl	Oui	Non
i8g.48xlarge	Non	Non
Calcul accéléré
p5en.48xlarge	Oui	Oui
p6e-gb200.36xlarge	Oui	Oui
trn2.48xlarge	Oui	Oui
trn2u.48xlarge	Oui	Oui
Calcul haute performance
hpc7g.4xlarge	Oui	Non
hpc7g.8xlarge	Oui	Non
hpc7g.16xlarge	Oui	Non

Nitro v4

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
m6a.48xlarge	Oui	Oui
m6a.metal	Oui	Oui
m6i.32xlarge	Oui	Oui
m6i.metal	Oui	Oui
m6id.32xlarge	Oui	Oui
m6id.metal	Oui	Oui
m6idn.32xlarge	Oui	Oui
m6idn.metal	Oui	Oui
m6in.32xlarge	Oui	Oui
m6in.metal	Oui	Oui
m7a.48xlarge	Oui	Non
m7a.metal-48xl	Oui	Non
m7g.16xlarge	Oui	Non
m7g.metal	Oui	Non
m7gd.16xlarge	Oui	Non
m7gd.metal	Oui	Non
m7i.48xlarge	Oui	Non
m7i.metal-48xl	Oui	Non
Calcul optimisé
c6a.48xlarge	Oui	Oui
c6a.metal	Oui	Oui
c6gn.16xlarge	Oui	Oui
c6i.32xlarge	Oui	Oui
c6i.metal	Oui	Oui
c6id.32xlarge	Oui	Oui
c6id.metal	Oui	Oui
c6in.32xlarge	Oui	Oui
c6in.metal	Oui	Oui
c7a.48xlarge	Oui	Non
c7a.metal-48xl	Oui	Non
c7g.16xlarge	Oui	Oui
c7g.metal	Oui	Oui
c7gd.16xlarge	Oui	Non
c7gd.metal	Oui	Non
c7i.48xlarge	Oui	Non
c7i.metal-48xl	Oui	Non
Mémoire optimisée
r6a.48xlarge	Oui	Oui
r6a.metal	Oui	Oui
r6i.32xlarge	Oui	Oui
r6i.metal	Oui	Oui
r6id.32xlarge	Oui	Oui
r6id.metal	Oui	Oui
r6idn.32xlarge	Oui	Oui
r6idn.metal	Oui	Oui
r6in.32xlarge	Oui	Oui
r6in.metal	Oui	Oui
r7a.48xlarge	Non	Non
r7a.metal-48xl	Non	Non
r7g.16xlarge	Non	Non
r7g.metal	Non	Non
r7gd.16xlarge	Non	Non
r7gd.metal	Non	Non
r7i.48xlarge	Non	Non
r7i.metal-48xl	Non	Non
r7iz.32xlarge	Non	Non
r7iz.metal-32xl	Non	Non
u7i-6tb.112xlarge	Oui	Oui
u7i-8tb.112xlarge	Oui	Oui
u7i-12tb.224xlarge	Oui	Oui
u7in-16tb.224xlarge	Oui	Oui
u7in-24tb.224xlarge	Oui	Oui
u7in-32tb.224xlarge	Oui	Oui
u7inh-32tb.480xlarge	Oui	Oui
x2idn.32xlarge	Oui	Oui
x2idn.metal	Oui	Oui
x2iedn.32xlarge	Oui	Oui
x2iedn.metal	Oui	Oui
Stockage optimisé
i4g.16xlarge	Oui	Oui
i4i.32xlarge	Oui	Oui
i4i.metal	Oui	Oui
i7i.24xlarge	Oui	Non
i7i.48xlarge	Oui	Non
i7i.metal-48xl	Oui	Non
im4gn.16xlarge	Oui	Oui
Calcul accéléré
f2.48xlarge	Oui	Oui
g6.8xlarge	Oui	Oui
g6.12xlarge	Oui	Oui
g6.16xlarge	Oui	Oui
g6.24xlarge	Oui	Oui
g6.48xlarge	Oui	Oui
g6e.8xlarge	Oui	Oui
g6e.12xlarge	Oui	Oui
g6e.16xlarge	Oui	Oui
g6e.24xlarge	Oui	Oui
g6e.48xlarge	Oui	Oui
gr6.8xlarge	Oui	Oui
p5.4xlarge	Oui	Oui
p5.48xlarge	Oui	Oui
p5e.48xlarge	Oui	Oui
trn1.32xlarge	Oui	Oui
trn1n.32xlarge	Oui	Oui
Calcul haute performance
hpc6a.48xlarge	Oui	Oui
hpc6id.32xlarge	Oui	Oui
hpc7a.12xlarge	Oui	Non
hpc7a.24xlarge	Oui	Non
hpc7a.48xlarge	Oui	Non
hpc7a.96xlarge	Oui	Non

Nitro v3

Type d’instance	Prise en charge de lecture RDMA	Prise en charge de l’écriture RDMA
Usage général
m5dn.24xlarge	Non	Non
m5dn.metal	Non	Non
m5n.24xlarge	Non	Non
m5n.metal	Non	Non
m5zn.12xlarge	Non	Non
m5zn.metal	Non	Non
Calcul optimisé
c5n.9xlarge	Non	Non
c5n.18xlarge	Non	Non
c5n.metal	Non	Non
Mémoire optimisée
r5dn.24xlarge	Non	Non
r5dn.metal	Non	Non
r5n.24xlarge	Non	Non
r5n.metal	Non	Non
x2iezn.12xlarge	Non	Non
x2iezn.metal	Non	Non
Stockage optimisé
i3en.12xlarge	Non	Non
i3en.24xlarge	Non	Non
i3en.metal	Non	Non
Calcul accéléré
dl1.24xlarge	Oui	Non
dl2q.24xlarge	Non	Non
g4dn.8xlarge	Non	Non
g4dn.12xlarge	Non	Non
g4dn.16xlarge	Non	Non
g4dn.metal	Non	Non
g5.8xlarge	Non	Non
g5.12xlarge	Non	Non
g5.16xlarge	Non	Non
g5.24xlarge	Non	Non
g5.48xlarge	Non	Non
inf1.24xlarge	Non	Non
p3dn.24xlarge	Non	Non
p4d.24xlarge	Oui	Non
p4de.24xlarge	Oui	Non
vt1.24xlarge	Non	Non
Génération précédente
p3dn.24xlarge	Non	Non

Pour voir les types d'instances disponibles qui sont pris EFAs en charge dans une région spécifique

Les types d’instance disponibles varient selon la région. Pour voir les types d'instances disponibles qui sont pris EFAs en charge dans une région, utilisez la describe-instance-typescommande avec le --region paramètre. Incluez le paramètre --filterspour étendre les résultats aux types d’instance qui prennent en charge EFA et le paramètre --query pour étendre la sortie à la valeur de InstanceType.


aws ec2 describe-instance-types \
    --region us-east-1  \
    --filters Name=network-info.efa-supported,Values=true \
    --query "InstanceTypes[*].[InstanceType]"  \
    --output text | sort

Systèmes d’exploitation pris en charge

La prise en charge du système d’exploitation varie en fonction du type de processeur. Le tableau suivant présente les systèmes d’exploitation pris en charge.

Système d’exploitation	Types d’instances Intel/AMD (`x86_64`)	AWS Types d'instances de Graviton (`arm64`)
Amazon Linux 2023	✓	✓
Amazon Linux 2	✓	✓
RHEL 8 et 9	✓	✓
Debian 11, 12 et 13	✓	✓
Rocky Linux 8 et 9	✓	✓
Ubuntu 22.04 et 24.04	✓	✓
SUSE Linux Enterprise 15 SP2 et versions ultérieures	✓	✓
OpenSUSE Leap 15.5 et versions ultérieures	✓

Note

Certains des systèmes d’exploitation énumérés peuvent ne pas être pris en charge par Intel MPI. Si vous utilisez Intel MPI, reportez-vous à la documentation Intel MPI pour vérifier si votre système d’exploitation est compatible avec celui-ci.

Restrictions liées à EFA

EFAs présentent les limites suivantes :

L’écriture RDMA n’est pas prise en charge avec tous les types d’instances. Pour de plus amples informations, veuillez consulter Types d’instance pris en charge.
Le trafic EFA ¹ entre les instances P4 d/P4de/DL 1 et les autres types d'instances n'est actuellement pas pris en charge.
Les types d’instance qui prennent en charge plusieurs cartes réseau peuvent être configurés avec un EFA par carte réseau. Tous les autres types d’instance pris en charge ne prennent en charge qu’un EFA par instance.
Les instances dédiées c7g.16xlarge, m7g.16xlarge et r7g.16xlarge, de même que les hôtes dédiés, ne sont pas pris en charge lorsqu’un EFA est attaché.
Le trafic EFA ¹ ne peut pas traverser les zones de disponibilité ou VPCs. Cela ne s’applique pas au trafic IP normal provenant du périphérique ENA d’une interface EFA.
Le trafic EFA¹ n’est pas routable. Le trafic IP normal de l’appareil ENA d’une interface EFA reste routable.
L'EFA n'est pas pris en charge sur AWS Outposts.
Le périphérique EFA d'une interface EFA (EFA avec ENA) est pris en charge sur les instances Windows uniquement pour les applications basées sur le kit de développement AWS Cloud Digital Interface logiciel (AWS CDI SDK). Si vous associez une interface EFA (EFA avec ENA) à une instance Windows pour des applications non basées sur le SDK CDI, elle fonctionne comme une interface ENA, sans les fonctionnalités supplémentaires du périphérique EFA. L'interface EFA uniquement n'est pas prise en charge par les applications AWS CDI basées sur Windows ou Linux. Pour plus d'informations, consultez le guide de l'utilisateur du kit de développement AWS Cloud Digital Interface logiciel (AWS CDI SDK).

¹Le trafic EFA fait référence au trafic transmis via le dispositif EFA d’une interface EFA (EFA avec ENA) ou EFA uniquement.

Tarification EFA

L'EFA est disponible en tant que fonctionnalité EC2 réseau Amazon optionnelle que vous pouvez activer sur n'importe quelle instance prise en charge sans frais supplémentaires.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Optimiser les performances du réseau sous Windows

Commencer avec EFA et MPI