Elastic Fabric Adapter - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Elastic Fabric Adapter

Elastic Fabric Adapter (EFA) est un périphérique réseau doté de fonctionnalités de contournement du système d'exploitation pour les communications réseau à faible latence avec d'autres instances sur le même sous-réseau. EFA est exposé à l'aide de Libfabric et peut être utilisé par des applications utilisant l'interface MPI (Messaging Passing Interface).

Pour utiliser EFA avec AWS ParallelCluster un Slurm planificateur, définissez SlurmQueues//ComputeResourcesEfa/Enabledsur. true

Pour consulter la liste des instances Amazon EC2 qui prennent en charge l'EFA, consultez la section Types d'instances pris en charge dans le Guide de l'utilisateur Amazon EC2 pour les instances Linux.

Nous vous recommandons d'exécuter vos instances compatibles EFA dans un groupe de placement. Les instances sont ainsi lancées dans un groupe à faible latence dans une seule zone de disponibilité. Pour plus d'informations sur la configuration des groupes de placement avec AWS ParallelCluster, consultez SlurmQueues/Networking/PlacementGroup.

Note

Elastic Fabric Adapter (EFA) n'est pas pris en charge dans différentes zones de disponibilité. Pour plus d'informations, consultez Scheduling/SlurmQueues/Networking/SubnetIds.

Note

Par défaut, les Ubuntu distributions activent la protection ptrace (suivi des processus). ptracela protection est désactivée afin que Libfabric fonctionne correctement. Pour plus d'informations, consultez la section Désactiver la protection ptrace dans le guide de l'utilisateur Amazon EC2.

Configuration réseau EFA par défaut

À partir de la AWS ParallelCluster version 3.15.0, lorsque EFA est activé, configure AWS ParallelCluster automatiquement les interfaces réseau uniquement EFA pour séparer le trafic EFA du trafic IP. Cela maximise la bande passante EFA tout en minimisant la consommation d'adresses IP. AWS ParallelCluster détermine la configuration optimale en fonction des capacités du type d'instance.

Cette configuration par défaut est recommandée pour la plupart des charges de travail, y compris le HPC étroitement couplé et la formation distribuée. AI/ML

Personnalisation des interfaces réseau EFA

Si votre charge de travail nécessite une configuration réseau différente, telle que l'optimisation de la bande passante ENA sur les cartes réseau secondaires ou la configuration d'un sous-ensemble de cartes réseau disponibles, vous pouvez remplacer les paramètres par défaut à l'aide du paramètre SlurmQueues//ComputeResources. LaunchTemplateOverrides Cela remplace la configuration complète de l'interface réseau des nœuds de calcul par la configuration définie dans votre modèle de lancement.

Pour une step-by-step procédure pas à pas, voirPersonnalisez les interfaces réseau des nœuds de calcul avec des remplacements de modèles de lancement.

Avertissement

Si vous configurez les interfaces réseau d'une manière qui n'est pas prise en charge par le type d'instance, les instances ne pourront pas être lancées. Pour vérifier les configurations réseau prises en charge pour votre type d'instance, consultez DescribeInstanceTypesle manuel Amazon EC2 API Reference.

Pour plus d'informations, consultez Elastic Fabric Adapter dans le guide de l'utilisateur Amazon EC2 et Scale HPC workloads with Elastic Fabric Adapter et sur le AWS blog AWS ParallelCluster Open Source.