Création d'un cluster HyperPod EKS avec un groupe d'instances restreint (RIG) - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un cluster HyperPod EKS avec un groupe d'instances restreint (RIG)

Cette rubrique décrit les étapes de création d'un cluster Amazon SageMaker HyperPod EKS avec un groupe d'instances restreint (RIG). Une configuration RIG dans des clusters SageMaker HyperPod EKS fournit un environnement spécialisé pour la formation des modèles Amazon Nova. Le RIG est soumis aux restrictions suivantes :

  • Les charges de travail RIG sont exécutées dans un VPC sans Internet, toutes les entrées et sorties sont strictement réglementées.

  • RIG impose des restrictions quant à l'observabilité des fonctions Kubernetes telles que Kubectl exec et logs afin de garantir un environnement sécurisé pour l'entraînement des modèles Nova.

  • RIG autorise uniquement les images de personnalisation Nova, et les tâches exécutées avec d'autres images seront refusées.

Vous pouvez créer des groupes d'instances RIGs lors de la configuration de groupes d'instances dans votre cluster HyperPod EKS. Bien que vous puissiez contrôler la taille et le dimensionnement de ces ressources, vous ne pouvez pas accéder directement aux nœuds de travail. Cette architecture garantit que les composants Nova (poids du modèle, points de contrôle, données d'entraînement et code) ne sont accessibles que par le biais de canaux réglementés et d'un système de compte géré par des services.

La personnalisation du modèle Nova SageMaker HyperPod repose sur un système de fichiers géré par les services FSx pour Lustre afin d'obtenir des performances optimales. Lorsque vous créez un RIG, vous devez spécifier la taille du volume et le débit du système de fichiers FSx for Lustre, qui sera monté sur tous les nœuds de travail du groupe d'instances. FSx for Lustre est utilisé pour stocker les points de contrôle intermédiaires et les états internes du modèle lors d'une formation distribuée. Suivez les instructions fournies dans la recette pour choisir une taille de volume et un débit appropriés afin de garantir une capacité et des performances suffisantes. FSx pour Lustre, les frais d'utilisation s'appliqueront à votre Compte AWS.

Remarques importantes pour le RIG dans HyperPod les clusters EKS

  • RIG ne prend en charge que l'utilisation du rôle d'exécution pour les autorisations. Assurez-vous que le rôle d'exécution inclut les autorisations IAM nécessaires, telles que l'accès à Amazon S3.

  • Lorsque vous utilisez Amazon FSx for Lustre et Amazon S3 gérés par des services, assurez-vous que la taille de votre système de fichiers FSx pour Lustre est adaptée à votre charge de travail. Le manifeste des données d'entraînement est chargé sur Amazon S3, qui doit être accessible par le rôle d'exécution.

  • Le RIG doit être créé ou mis à jour sur un nouveau cluster SageMaker HyperPod EKS, en particulier un cluster créé le 16 juillet 2025 ou après cette date. Les clusters créés avant cette date peuvent contenir des versions logicielles incompatibles ou des configurations qui ne sont pas prises en charge par RIG.

Création d'un cluster HyperPod EKS avec RIG (console)

Suivez ces instructions pour créer un cluster HyperPod EKS avec un RIG à l'aide de la HyperPod console.

Création d'un cluster HyperPod EKS avec RIG (CLI)

Suivez ces instructions pour créer un cluster HyperPod EKS avec un RIG à l'aide du AWS CLI.