Démarrage SageMaker HyperPod rapide d'Amazon - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Démarrage SageMaker HyperPod rapide d'Amazon

Ce guide de démarrage rapide vous explique comment créer votre premier HyperPod cluster avec les orchestrations Slurm et Amazon EKS (EKS). Choisissez l'orchestration qui répond le mieux aux besoins de votre infrastructure pour commencer SageMaker HyperPod.

Création d'un cluster orchestré par Slurm SageMaker HyperPod

Suivez ces étapes pour créer votre premier SageMaker HyperPod cluster avec l'orchestration Slurm.

  1. Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/.

  2. Choisissez HyperPod Clusters dans le volet de navigation de gauche, puis Gestion des clusters.

  3. Sur la page SageMaker HyperPod Clusters, choisissez Create HyperPod cluster.

  4. Dans le menu déroulant Créer un HyperPod cluster, choisissez Orchestrated by Slurm.

  5. Sur la page de création du cluster, choisissez Configuration rapide. Avec cette option, vous pouvez commencer immédiatement avec les paramètres par défaut. SageMaker L'IA créera de nouvelles ressources telles que le VPC, les sous-réseaux, les groupes de sécurité, le compartiment Amazon S3, le rôle IAM et FSx pour Lustre lors de la création de votre cluster.

  6. Dans Paramètres généraux, spécifiez le nom du nouveau cluster. Vous ne pouvez pas modifier le nom une fois le cluster créé.

  7. Dans Groupes d'instances, sélectionnez Ajouter un groupe. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d'instances. Vous pouvez ajouter un groupe d'instances à la fois. Pour créer plusieurs groupes d'instances, répétez le processus pour chaque groupe d'instances.

    Procédez comme suit pour ajouter un groupe d'instances.

    1. Pour Type de groupe d'instances, choisissez un type pour votre groupe d'instances. Pour ce démarrage rapide, choisissez Controller (head) formy-controller-group, Login for my-login-group et Compute (worker) pourworker-group-1.

    2. Pour Nom, spécifiez le nom du groupe d'instances. Pour ce démarrage rapide, créez trois groupes d'instances nommés my-controller-groupmy-login-group, etworker-group-1.

    3. Pour la capacité de l'instance, choisissez soit une capacité à la demande, soit un plan de formation pour réserver vos ressources informatiques.

    4. Dans Type d'instance, choisissez l'instance pour le groupe d'instances. Pour ce démarrage rapide, sélectionnez ml.c5.xlarge pour my-controller-groupmy-login-group, ml.m5.4xlarge pour et ml.trn1.32xlarge pourworker-group-1.

      Assurez-vous de choisir le type d'instance avec des quotas suffisants dans votre compte, ou demandez des quotas supplémentaires en suivant les instructions surSageMaker HyperPod quotas.

    5. Pour Quantité d'instances, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster. Pour ce démarrage rapide, entrez 1 pour les trois groupes.

    6. Pour la zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront approvisionnées. La zone de disponibilité doit correspondre à l'emplacement de votre capacité de calcul accélérée.

    7. Pour Volume de stockage supplémentaire par instance (Go), facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder aux instances du cluster (nœuds) par SSH et vérifier si le volume EBS est correctement monté en exécutant la df -h commande. L'attachement d'un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section sur les volumes Amazon EBS du guide de l'utilisateur d'Amazon Elastic Block Store.

    8. Choisissez Ajouter un groupe d'instances.

  8. Dans Paramètres de configuration rapide par défaut, passez en revue les paramètres par défaut. Cette section répertorie tous les paramètres par défaut pour la création de votre cluster, y compris toutes les nouvelles AWS ressources qui seront créées au cours du processus de création du cluster.

  9. Sélectionnez Envoyer.

Pour de plus amples informations, veuillez consulter Commencer à SageMaker HyperPod utiliser la console SageMaker AI.

Création d'un cluster orchestré par EKS SageMaker HyperPod

Suivez ces étapes pour créer votre premier SageMaker HyperPod cluster avec l'orchestration Amazon EKS.

  1. Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/.

  2. Choisissez HyperPod Clusters dans le volet de navigation de gauche, puis Gestion des clusters.

  3. Sur la page SageMaker HyperPod Clusters, choisissez Create HyperPod cluster.

  4. Dans le menu déroulant Créer un HyperPod cluster, sélectionnez Orchestrated by Amazon EKS.

  5. Sur la page de création du cluster, choisissez Configuration rapide. Avec cette option, vous pouvez commencer immédiatement avec les paramètres par défaut. SageMaker L'IA créera de nouvelles ressources telles que le VPC, les sous-réseaux, les groupes de sécurité, le compartiment Amazon S3, le rôle IAM et FSx pour Lustre lors de la création de votre cluster.

  6. Dans Paramètres généraux, spécifiez le nom du nouveau cluster. Vous ne pouvez pas modifier le nom une fois le cluster créé.

  7. Dans Groupes d'instances, sélectionnez Ajouter un groupe. Chaque groupe d'instances peut être configuré différemment, et vous pouvez créer un cluster hétérogène composé de plusieurs groupes d'instances avec différents types d'instances. Pour déployer un cluster, vous devez ajouter au moins un groupe d'instances. Vous pouvez ajouter un groupe d'instances à la fois. Pour créer plusieurs groupes d'instances, répétez le processus pour chaque groupe d'instances.

    Procédez comme suit pour ajouter un groupe d'instances.

    1. Pour le type de groupe d'instances, sélectionnez Standard ou Restricted Instance Group (RIG). Généralement, vous choisissez Standard, qui fournit un environnement informatique à usage général sans restrictions de sécurité supplémentaires. Le Restricted Instance Group (RIG) est un environnement spécialisé pour la personnalisation de modèles fondamentaux tels qu'Amazon Nova. Pour plus d'informations sur la configuration de RIG pour la personnalisation des modèles Amazon Nova, consultezPersonnalisation d'Amazon Nova sur Amazon SageMaker HyperPod.

    2. Pour Nom, spécifiez le nom du groupe d'instances.

    3. Pour la capacité de l'instance, choisissez soit une capacité à la demande, soit un plan de formation pour réserver vos ressources informatiques.

    4. Dans Type d'instance, choisissez l'instance pour le groupe d'instances. Assurez-vous de choisir le type d'instance avec des quotas suffisants sur votre compte, ou demandez des quotas supplémentaires en suivant le lien surSageMaker HyperPod quotas.

    5. Pour Quantité d'instances, spécifiez un entier ne dépassant pas le quota d'instance pour l'utilisation du cluster. Pour ce démarrage rapide, entrez 1 pour les trois groupes.

    6. Pour la zone de disponibilité cible, choisissez la zone de disponibilité dans laquelle vos instances seront approvisionnées. La zone de disponibilité doit correspondre à l'emplacement de votre capacité de calcul accélérée.

    7. Pour Volume de stockage supplémentaire par instance (Go), facultatif, spécifiez un entier compris entre 1 et 16 384 pour définir la taille d'un volume Elastic Block Store (EBS) supplémentaire en gigaoctets (Go). Le volume EBS est attaché à chaque instance du groupe d'instances. Le chemin de montage par défaut pour le volume EBS supplémentaire est/opt/sagemaker. Une fois le cluster créé avec succès, vous pouvez accéder aux instances du cluster (nœuds) par SSH et vérifier si le volume EBS est correctement monté en exécutant la df -h commande. L'attachement d'un volume EBS supplémentaire fournit un stockage stable, hors instance et persistant de manière indépendante, comme décrit dans la section sur les volumes Amazon EBS du guide de l'utilisateur d'Amazon Elastic Block Store.

    8. Par exemple, des bilans de santé approfondis, choisissez votre option. Des contrôles de santé approfondis surveillent l'état des instances lors de leur création et après les mises à jour logicielles. Ils permettent de récupérer automatiquement les instances défectueuses par le biais de redémarrages ou de remplacements lorsqu'ils sont activés.

    9. Choisissez Ajouter un groupe d'instances.

  8. Dans Paramètres de configuration rapide par défaut, passez en revue les paramètres par défaut. Cette section répertorie tous les paramètres par défaut pour la création de votre cluster, y compris toutes les nouvelles AWS ressources qui seront créées au cours du processus de création du cluster.

  9. Sélectionnez Envoyer.

Pour de plus amples informations, veuillez consulter Création d'un SageMaker HyperPod cluster avec l'orchestration Amazon EKS.

Soumettre des charges de travail

Suivez les didacticiels de ces ateliers pour soumettre des exemples de charges de travail.