Utilisation d'Amazon EC2 Capacity Blocks pour le ML avec AWS PCS - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation d'Amazon EC2 Capacity Blocks pour le ML avec AWS PCS

Amazon EC2 Capacity Blocks for ML est une option EC2 d'achat Amazon qui vous permet de payer à l'avance pour réserver des instances de calcul accéléré basées sur un GPU à une date et à une heure spécifiques afin de prendre en charge des charges de travail de courte durée. Les instances qui s'exécutent au sein d'un bloc de capacité sont automatiquement placées à proximité les unes des autres dans Amazon EC2 UltraClusters, pour une mise en réseau non bloquante à faible latence, à l'échelle du pétaoctet. Pour plus d'informations, consultez Capacity Blocks for ML dans le guide de l'utilisateur d'Amazon Elastic Compute Cloud.

Vous pouvez utiliser un modèle de lancement pour que AWS PCS utilise un bloc de capacité lorsqu'il lance des instances pour un groupe de nœuds de calcul.

Note

AWS PCS prend uniquement en charge les blocs de capacité avec Slurm version 24.05 ou ultérieure.

Limites

  • AWS PCS prend uniquement en charge les blocs de capacité avec les familles d'instances P5en, P5e, P5 et P4d.

  • Vous ne pouvez associer un groupe de nœuds de calcul qu'à un seul bloc de capacité à la fois.

  • Vous ne pouvez pas associer un groupe de nœuds de calcul à un groupe de réservation de capacité combinant plusieurs blocs de capacité.

  • Les blocs de capacité doivent être à active l'état scheduled ou pour être utilisés avec le AWS PCS. Vous ne pouvez pas utiliser les blocs de capacité dans d'autres États, tels quepayment-failed. Pour plus d'informations, consultez la section Afficher les blocs de capacité dans le guide de l'utilisateur d'Amazon Elastic Compute Cloud.

Expiration du bloc de capacité

Les blocs de capacité sont limités à une plage de dates et d'heures spécifiques. Lorsqu'un bloc de capacité expire :

  • Le groupe de nœuds de calcul associé à ce bloc de capacité continue d'exister et reste associé aux mêmes files d'attente.

  • Toutes les instances du groupe de nœuds de calcul sont mises hors service et les tâches actives risquent d'échouer, selon vos paramètres Slurm.

  • AWS PCS ne peut pas lancer de nouvelles instances dans le groupe de nœuds de calcul.

  • Toutes les tâches mises en file d'attente ou récemment soumises restent en attente jusqu'à ce qu'un autre groupe de nœuds de calcul soit attaché à la file d'attente ou que vous mettiez à jour le groupe de nœuds de calcul pour utiliser un nouveau modèle de lancement spécifiant un nouveau bloc de capacité.