Conditions préalables Types de rapports Formats de rapports et plage de temps Cas d’utilisation illustratifs

Rapports d'utilisation pour l'attribution des coûts dans SageMaker HyperPod

Les rapports d'utilisation dans les clusters SageMaker HyperPod orchestrés par EKS fournissent une visibilité granulaire de la consommation des ressources informatiques. Cette fonctionnalité permet aux entreprises de mettre en œuvre une attribution transparente des coûts, en allouant les coûts du cluster aux équipes, aux projets ou aux départements en fonction de leur utilisation réelle. En suivant des indicateurs tels que les GPU/CPU heures et l'utilisation de Neuron Core, capturés à la fois dans des agrégats au niveau de l'équipe et dans des ventilations spécifiques aux tâches, les rapports d'utilisation complètent HyperPod la fonctionnalité de gouvernance des tâches de la société, garantissant ainsi une répartition équitable des coûts dans les clusters mutualisés partagés en :

éliminant les incertitudes dans l’allocation des coûts ;
liant directement les dépenses à une consommation de ressources mesurable ;
renforçant la responsabilité basée sur l’utilisation dans les environnements d’infrastructure partagée.

Conditions préalables

Pour afficher cette fonctionnalité :

Il vous faut :
- Un SageMaker HyperPod environnement actif avec un cluster orchestré par EKS en cours d'exécution.
- (Fortement recommandé) Avoir configuré la gouvernance des tâches avec des quotas de calcul et des règles de priorité. Pour les instructions de configuration, consultez Configuration de la gouvernance des tâches.
Familiarisez-vous avec les concepts fondamentaux suivants :
- Quota de calcul alloué : ressources réservées pour une équipe sur la base de quotas prédéfinis dans ses politiques de gouvernance des tâches. Il s’agit d’une fonctionnalité garantie pour leurs charges de travail.
- Calcul emprunté : ressources inactives du groupe de clusters partagé que les équipes peuvent utiliser temporairement au-delà du quota qui leur est alloué. Le calcul emprunté est attribué dynamiquement en fonction des règles de priorité définies dans les politiques de gouvernance des tâches et de la disponibilité des ressources non utilisées.
- Utilisation du calcul : mesure des ressources (GPU, CPU, heures de cœurs neuronaux) consommées par une équipe, suivie comme suit :
  - Utilisation allouée : utilisation dans les limites du quota de l’équipe.
  - Utilisation empruntée : utilisation au-delà du quota, puisée dans le groupe partagé.
- Attribution des coûts : processus d’allocation des coûts de cluster aux équipes en fonction de leur utilisation réelle du calcul, y compris les ressources consommées dans les limites de leur quota prédéfini et les ressources utilisées temporairement à partir du pool de clusters partagé au-delà de leur quota.

Types de rapports

HyperPodles rapports d'utilisation fournissent une granularité opérationnelle variable :

Les rapports de synthèse fournissent une visibilité à l'échelle de l'organisation sur l'utilisation du calcul, en agrégeant le nombre total d'heures de GPU/CPU/Neuron base par équipe (espace de noms) tout en faisant la distinction entre l'utilisation normale (ressources provenant du quota alloué à une équipe) et le calcul emprunté (capacité excédentaire provenant de pools partagés).
Les rapports détaillés fournissent la répartition des tâches par équipe et permettent de suivre les heures de calcul exactes consacrées à l’exécution de tâches spécifiques, y compris de tâches préemptées, de modèles d’utilisation horaire et d’allocations spécifiques à l’espace de noms.

Important

HyperPod les rapports d'utilisation suivent l'utilisation du calcul dans tous les espaces de noms Kubernetes d'un cluster, y compris ceux gérés par Task Governance, les espaces de noms par défaut et les espaces de noms créés en dehors de Task Governance (par exemple, via des appels d'API Kubernetes directs ou des outils externes). Cette surveillance au niveau de l’infrastructure garantit une responsabilisation complète basée sur l’utilisation, évitant les écarts dans l’attribution des coûts pour les clusters partagés, quelle que soit la manière dont les espaces de noms sont gérés.

Formats de rapports et plage de temps

En utilisant le script Python fourni dans Génération de rapports, les administrateurs peuvent générer des rapports d’utilisation à la demande au format CSV ou PDF, en sélectionnant des plages de temps allant d’instantanés quotidiens à des fenêtres d’historique de 180 jours (6 mois).

Note

Vous pouvez configurer la fenêtre d’historique pour qu’elle s’étende au-delà du maximum de 180 jours par défaut lors de la configuration de l’infrastructure de rapports. Pour plus d'informations sur la configuration de la période de conservation des données, voir Installer l'infrastructure de rapports d'utilisation à l'aide de CloudFormation.

Cas d’utilisation illustratifs

Cette fonctionnalité répond aux scénarios critiques dans les AI/ML environnements à locataires multiples tels que :

Répartition des coûts pour les clusters partagés : un administrateur gère un HyperPod cluster partagé par 20 équipes qui forment des modèles d'IA génératifs. À l’aide d’un rapport d’utilisation récapitulatif, il analyse l’utilisation GPU quotidienne sur 180 jours et découvre que l’équipe A a consommé 200 heures de GPU d’un type d’instance spécifique, à savoir 170 heures de son quota alloué et 30 de calcul emprunté. L’administrateur facture à l’équipe A le montant correspondant à ce rapport d’utilisation.
Audit et résolution des litiges : une équipe financière met en doute l’exactitude de l’attribution des coûts, invoquant des incohérences. L’administrateur peut exporter un rapport détaillé au niveau des tâches pour effectuer un audit des incohérences. En recoupant les horodatages, les types d’instances et les tâches préemptées au sein de l’espace de noms de l’équipe, le rapport réconcilie de manière transparente les données d’utilisation contestées.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Attribution

Détails des rapports et ventilation des données