Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d'un SageMaker HyperPod cluster avec l'orchestration Amazon EKS
Le didacticiel suivant explique comment créer un nouveau SageMaker HyperPod cluster et le configurer avec l'orchestration Amazon EKS via l'interface utilisateur de la console SageMaker AI.
Dans cette rubrique :
Créer un cluster
Pour accéder à la page SageMaker HyperPod Clusters et choisir l'orchestration Amazon EKS, procédez comme suit.
Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/
. -
Choisissez HyperPod Clusters dans le volet de navigation de gauche, puis Gestion des clusters.
-
Sur la page SageMaker HyperPod Clusters, choisissez Create HyperPod cluster.
-
Dans le menu déroulant Créer un HyperPod cluster, sélectionnez Orchestrated by Amazon EKS.
-
Sur la page de création du cluster EKS, vous verrez deux options. Choisissez celle qui correspond le mieux à vos besoins.
-
Configuration rapide : pour commencer immédiatement avec les paramètres par défaut, choisissez Configuration rapide. Grâce à cette option, l' SageMaker IA créera de nouvelles ressources telles que le VPC, les sous-réseaux, les groupes de sécurité, le compartiment Amazon S3, le rôle IAM et FSx pour Lustre lors de la création de votre cluster.
-
Configuration personnalisée : pour intégrer des ressources AWS existantes ou pour respecter des exigences spécifiques de mise en réseau, de sécurité ou de stockage, choisissez Configuration personnalisée. Avec cette option, vous pouvez choisir d’utiliser les ressources existantes ou d’en créer de nouvelles, et vous pouvez personnaliser la configuration qui répond le mieux à vos besoins.
-
Dans la section Configuration rapide, suivez ces étapes pour créer votre HyperPod cluster avec l'orchestration Amazon EKS.
Paramètres généraux
Attribuez un nom au nouveau cluster. Vous ne pourrez pas modifier le nom après la création du cluster.
Groupes d’instances
Pour ajouter un groupe d’instances, choisissez Ajouter un groupe. Chaque groupe d’instances peut être configuré différemment et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d’instances avec divers types d’instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d’instances. Procédez comme suit pour ajouter un groupe d’instances.
-
Pour Type de groupe d’instances, choisissez Standard ou Groupe d’instances restreint (RIG). Généralement, vous choisissez Standard, qui fournit un environnement informatique à usage général sans restrictions de sécurité supplémentaires. Groupe d’instances restreint (RIG) est un environnement spécialisé pour la personnalisation de modèles de fondation tels qu’Amazon Nova. Pour plus d’informations sur la configuration d’un RIG pour la personnalisation du modèle Amazon Nova, consultez Personnalisation d'Amazon Nova sur Amazon SageMaker HyperPod.
-
Pour Nom, spécifiez le nom du groupe d’instances.
-
Pour Capacité de l’instance, choisissez une capacité à la demande ou un plan d’entraînement pour réserver vos ressources de calcul.
-
Pour Type d’instance, choisissez l’instance pour le groupe d’instances.
Important
Veillez à choisir un type d’instance doté de quotas suffisants et suffisamment d’adresses IP non attribuées pour votre compte. Pour consulter ou demander des quotas supplémentaires, consultez SageMaker HyperPod quotas.
-
Pour Quantité d’instances, spécifiez un entier ne dépassant pas le quota d’instances pour l’utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.
-
Pour Zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront provisionnées. La zone de disponibilité doit correspondre à l’emplacement de votre capacité de calcul accélérée.
-
Pour Autre volume de stockage par instance (Go) – facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d’un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d’instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est
/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder par SSH aux instances du cluster (nœuds) et vérifier si le volume EBS est correctement monté en exécutant la commandedf -h. L’attachement d’un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section Volumes Amazon EBS du Guide de l’utilisateur Amazon Elastic Block Store. -
Pour Vérifications de surveillance approfondie de l’état des instances, choisissez votre option. Des vérifications de surveillance approfondie de l’état surveillent l’état des instances lors de leur création et après les mises à jour logicielles. Elles permettent de récupérer automatiquement les instances défectueuses par le biais de redémarrages ou de remplacements lorsqu’elles sont activées.
-
Si votre type d'instance prend en charge le partitionnement GPU avec un GPU multi-instance (MIG), vous pouvez activer la configuration de partition GPU pour le groupe d'instances. Le partitionnement du GPU vous permet de le GPUs diviser en partitions isolées plus petites pour une meilleure utilisation des ressources. Pour de plus amples informations, veuillez consulter Utilisation de partitions GPU dans Amazon SageMaker HyperPod.
-
Activez l'option Utiliser la partition GPU pour activer le partitionnement GPU pour ce groupe d'instances.
-
Sélectionnez un profil de partition GPU parmi les options disponibles pour votre type d'instance. Chaque profil définit la configuration de la tranche GPU et l'allocation de mémoire.
-
-
Choisissez Ajouter un groupe d’instances.
Paramètres par défaut de configuration rapide
Cette section répertorie tous les paramètres par défaut pour la création de votre cluster, y compris toutes les nouvelles AWS ressources qui seront créées au cours du processus de création du cluster. Passez en revue les paramètres par défaut.
Dans la section Configuration personnalisée, suivez ces étapes pour créer votre premier HyperPod cluster avec l'orchestration Amazon EKS.
Paramètres généraux
Attribuez un nom au nouveau cluster. Vous ne pourrez pas modifier le nom après la création du cluster.
Pour Restauration d’instance, choisissez Automatique – recommandé ou Aucun.
Réseaux
Configurez les paramètres réseau au sein in-and-out du cluster et du cluster. Pour l'orchestration du SageMaker HyperPod cluster avec Amazon EKS, le VPC est automatiquement défini sur celui configuré avec le cluster EKS que vous avez sélectionné.
-
Pour le VPC, choisissez votre propre VPC si vous en avez déjà un qui permet à l' SageMaker IA d'accéder à votre VPC. Pour créer un nouveau VPC, suivez les instructions de la section Création d’un VPC dans le Guide de l’utilisateur Amazon Virtual Private Cloud. Vous pouvez le laisser sur Aucun pour utiliser le VPC SageMaker AI par défaut.
-
Pour le bloc d'adresse IPv4 CIDR VPC, entrez l'adresse IP de départ de votre VPC.
-
Pour les zones de disponibilité, choisissez les zones de disponibilité (AZ) dans lesquelles HyperPod vous créerez des sous-réseaux pour votre cluster. Choisissez AZs celui qui correspond à l'emplacement de votre capacité de calcul accélérée.
-
Pour Groupe(s) de sécurité, choisissez les groupes de sécurité attachés au cluster Amazon EKS ou dont le trafic entrant est autorisé par le groupe de sécurité associé au cluster Amazon EKS. Pour créer de nouveaux groupes de sécurité, accédez à la console Amazon VPC.
Orchestration
Suivez ces étapes pour créer ou sélectionner un cluster Amazon EKS à utiliser comme orchestrateur.
-
Pour Cluster EKS, choisissez de créer un nouveau cluster Amazon EKS ou d’utiliser un cluster existant.
Si vous devez créer un nouveau cluster EKS, vous pouvez le créer à partir de la section Cluster EKS sans avoir à ouvrir la console Amazon EKS.
Note
Le sous-réseau VPC que vous choisissez HyperPod doit être privé.
Après avoir soumis une nouvelle demande de création de cluster EKS, attendez que le cluster EKS devienne
Active. -
Pour Version de Kubernetes, choisissez une version dans le menu déroulant. Pour plus d’informations sur les versions de Kubernetes, consultez Comprendre le cycle de vie des versions de Kubernetes sur EKS dans le Guide de l’utilisateur Amazon EKS.
-
Pour Opérateurs, choisissez Utiliser les graphiques Helm et les modules complémentaires par défaut ou N’installez pas d’opérateurs. L’option par défaut est Utiliser les graphiques Helm et les modules complémentaires par défaut, qui sera utilisée pour installer les opérateurs sur le cluster EKS. Pour plus d'informations sur les graphiques Helm par défaut et les modules complémentaires, consultez
helm_chartle GitHub référentiel. Pour de plus amples informations, veuillez consulter Installation de packages sur le cluster Amazon EKS à l’aide de Helm. -
Pour Opérateurs activés, consultez la liste des opérateurs activés. Pour modifier les opérateurs, décochez la case en haut et choisissez les opérateurs à activer pour le cluster EKS.
Note
Pour l'utiliser HyperPod avec EKS, vous devez installer des cartes Helm et des modules complémentaires qui activent les opérateurs sur le cluster EKS. Ces composants configurent EKS comme plan de contrôle HyperPod et fournissent la configuration nécessaire à la gestion et à l'orchestration de la charge de travail.
Groupes d’instances
Pour ajouter un groupe d’instances, choisissez Ajouter un groupe. Chaque groupe d’instances peut être configuré différemment et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d’instances avec divers types d’instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d’instances. Procédez comme suit pour ajouter un groupe d’instances.
-
Pour Type de groupe d’instances, choisissez Standard ou Groupe d’instances restreint (RIG). Généralement, vous choisissez Standard, qui fournit un environnement informatique à usage général sans restrictions de sécurité supplémentaires. Groupe d’instances restreint (RIG) est un environnement spécialisé pour la personnalisation de modèles de fondation tels qu’Amazon Nova. Pour plus d’informations sur la configuration d’un RIG pour la personnalisation du modèle Amazon Nova, consultez Personnalisation d'Amazon Nova sur Amazon SageMaker HyperPod.
-
Pour Nom, spécifiez le nom du groupe d’instances.
-
Pour Capacité de l’instance, choisissez une capacité à la demande ou un plan d’entraînement pour réserver vos ressources de calcul.
-
Pour Type d’instance, choisissez l’instance pour le groupe d’instances.
Important
Veillez à choisir un type d’instance doté de quotas suffisants et suffisamment d’adresses IP non attribuées pour votre compte. Pour consulter ou demander des quotas supplémentaires, consultez SageMaker HyperPod quotas.
-
Pour Quantité d’instances, spécifiez un entier ne dépassant pas le quota d’instances pour l’utilisation du cluster. Pour ce didacticiel, entrez 1 pour les trois groupes.
-
Pour Zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront provisionnées. La zone de disponibilité doit correspondre à l’emplacement de votre capacité de calcul accélérée.
-
Pour Autre volume de stockage par instance (Go) – facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d’un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d’instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est
/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder par SSH aux instances du cluster (nœuds) et vérifier si le volume EBS est correctement monté en exécutant la commandedf -h. L’attachement d’un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section Volumes Amazon EBS du Guide de l’utilisateur Amazon Elastic Block Store. -
Pour Vérifications de surveillance approfondie de l’état des instances, choisissez votre option. Des vérifications de surveillance approfondie de l’état surveillent l’état des instances lors de leur création et après les mises à jour logicielles. Elles permettent de récupérer automatiquement les instances défectueuses par le biais de redémarrages ou de remplacements lorsqu’elles sont activées. Pour en savoir plus, consultez Vérifications de surveillance approfondie de l’état
-
Pour Utiliser une partition GPU : facultatif, si votre type d'instance prend en charge le partitionnement GPU avec un GPU multi-instance (MIG), vous pouvez activer cette option pour configurer le profil de partition GPU pour le groupe d'instances. Le partitionnement du GPU vous permet de le GPUs diviser en partitions isolées plus petites pour une meilleure utilisation des ressources. Pour de plus amples informations, veuillez consulter Utilisation de partitions GPU dans Amazon SageMaker HyperPod.
-
Activez l'option Utiliser la partition GPU pour activer le partitionnement GPU pour ce groupe d'instances.
-
Sélectionnez un profil de partition GPU parmi les options disponibles pour votre type d'instance. Chaque profil définit la configuration de la tranche GPU et l'allocation de mémoire.
-
-
Choisissez Ajouter un groupe d’instances.
Scripts de cycle de vie
Vous pouvez choisir d’utiliser les scripts de cycle de vie par défaut ou les scripts de cycle de vie personnalisés, qui seront stockés dans votre compartiment Amazon S3. Vous pouvez consulter les scripts de cycle de vie par défaut dans le GitHub référentiel Awesome Distributed Training
-
Pour Scripts de cycle de vie, choisissez d’utiliser des scripts de cycle de vie par défaut ou personnalisés.
-
Pour Compartiment S3 pour les scripts de cycle de vie, choisissez de créer un nouveau compartiment ou d’utiliser un compartiment existant pour stocker les scripts de cycle de vie.
Permissions
Choisissez ou créez un rôle IAM qui permet d'exécuter et HyperPod d'accéder aux AWS ressources nécessaires en votre nom. Pour de plus amples informations, veuillez consulter Rôle IAM pour SageMaker HyperPod.
Stockage
Configurez le système de fichiers FSx for Lustre à provisionner sur le HyperPod cluster.
-
Pour Système de fichiers, choisissez un système de fichiers existant FSx pour Lustre, pour créer un nouveau système de fichiers FSx pour Lustre, ou n'en FSx configurez aucun pour Lustre.
-
Pour Débit par unité de stockage, choisissez le débit qui sera disponible par Tio de stockage provisionné.
-
Pour Capacité de stockage, entrez une valeur de capacité en To.
-
Pour le type de compression des données, choisissez LZ4d'activer la compression des données.
-
Pour Version Lustre, consultez la valeur recommandée pour les nouveaux systèmes de fichiers.
Balises - facultatif
Pour les balises (facultatif), ajoutez des paires clé/valeur au nouveau cluster et gérez le cluster en tant que AWS ressource. Pour en savoir plus, consultez Balisage de vos ressources AWS.
déployer des ressources ;
Après avoir terminé la configuration du cluster à l’aide de la configuration rapide ou de la configuration personnalisée, choisissez l’option suivante pour démarrer le provisionnement des ressources et la création du cluster.
-
Soumettre : SageMaker AI commencera à approvisionner les ressources de configuration par défaut et à créer le cluster.
-
Télécharger les paramètres du CloudFormation modèle : vous allez télécharger le fichier JSON des paramètres de configuration et exécuter la AWS CLI commande pour déployer la CloudFormation pile afin de provisionner les ressources de configuration et de créer le cluster. Vous pouvez modifier le fichier JSON de paramètres téléchargés si nécessaire. Si vous choisissez cette option, consultez des instructions supplémentaires dans Création de SageMaker HyperPod clusters à l'aide CloudFormation de modèles.