Détails des rapports et ventilation des données - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Détails des rapports et ventilation des données

SageMaker HyperPodles rapports d'utilisation fournissent deux objectifs distincts pour analyser la consommation de ressources informatiques : des rapports de synthèse pour la répartition des coûts et des rapports détaillés pour l'audit granulaire. Les rapports récapitulatifs regroupent l’utilisation à l’échelle du cluster par équipe ou par espace de noms, en mettant en évidence les tendances de calcul alloué par rapport au calcul emprunté entre les ressources de GPU, de CPU et de cœurs neuronaux. Des rapports détaillés explorent les tâches individuelles et présentent des métriques telles que les fenêtres d’exécution, le statut des tâches et l’utilisation par classe de priorité. Dans cette section, nous décomposons la structure de ces rapports, comprenons leurs métriques clés et montrons comment les administrateurs et les équipes financières peuvent croiser les tendances récapitulatives avec les données au niveau des tâches afin de valider l’exactitude de la répartition des coûts, de résoudre les incohérences et d’optimiser l’infrastructure partagée.

En-têtes de rapports communs

Les rapports récapitulatifs et détaillés incluent tous les métadonnées suivantes permettant de contextualiser les données d’utilisation :

  • ClusterName: nom du cluster Hyperpod orchestré par EKS dans lequel les ressources ont été consommées.

  • Type : catégorie du rapport (Summary Utilization Report ou Detailed Utilization Report).

  • Date de génération : date de création du rapport (p. ex., 2025-04-18).

  • Plage de dates (UTC) : période couverte (p. ex., 2025-04-16 to 2025-04-18).

  • Périodes de données manquantes : lacunes dans la collection de données dues à des durées d’indisponibilité du cluster ou à des problèmes de surveillance (p. ex., 2025-04-16 00:00:00 to 2025-04-19 00:00:00).

Rapports récapitulatifs

Les rapports récapitulatifs fournissent une vue d’ensemble quotidienne de la consommation des ressources de calcul par équipe/espace de noms et par type d’instance, en distinguant l’utilisation allouée (quota réservé) et l’utilisation empruntée (groupe prêté). Ces rapports sont parfaits pour la génération de factures, les déclarations d’attribution des coûts ou les prévisions de capacité.

Exemple : un rapport récapitulatif peut indiquer que l’équipe A a utilisé 200 heures de GPU, à savoir 170 heures sur le quota alloué et 30 heures empruntées.

Voici une ventilation structurée des colonnes clés d’un rapport récapitulatif :

  • Date : date de l’utilisation faisant l’objet du rapport (p. ex., 2025-04-18).

  • Espace de noms : espace de noms Kubernetes associé à l’équipe (p. ex., hyperpod-ns-ml-team).

  • Équipe : The Owning team/department (par exemple,ml-team).

  • Type d’instance : instance de calcul utilisée (p. ex., ml.g5.4xlarge).

  • Total/Allocated/BorrowedUtilisation (heures) : répartition de l'utilisation du GPU, du processeur ou du Neuron Core par catégorie.

    Où :

    • Utilisation totale = Utilisation allouée + Utilisation empruntée

    • L’utilisation allouée correspond au nombre réel d’heures de GPU, de CPU ou de cœurs neuronaux utilisées par une équipe, plafonné à 100 % du quota qui lui est alloué.

    • L’utilisation empruntée correspond au nombre réel d’heures de GPU, de CPU ou de cœurs neuronaux utilisées par une équipe au-delà du quota qui lui a été alloué, puisées dans le pool de clusters partagé en fonction des règles de priorité de gouvernance des tâches et de la disponibilité des ressources.

Exemple : 72 heures de GPU au total (48 allouées, 24 empruntées).

Note

Seule l’utilisation totale est affichée pour les espaces de noms non gérés par la gouvernance des tâches.

Rapports détaillés

Des rapports détaillés fournissent une visibilité chirurgicale sur l’utilisation des ressources de calcul, en décomposant la consommation des ressources par tâche, en présentant des métriques granulaires telles que les fenêtres d’exécution des tâches, leur statut (p. ex., Succès, Échec) et leur utilisation par classe de priorité. Ces rapports sont parfaitement adaptés pour valider des écarts de facturation ou pour garantir le respect des politiques de gouvernance.

Voici une ventilation structurée des colonnes clés d’un rapport détaillé :

  • Date : date de l’utilisation faisant l’objet du rapport (p. ex., 2025-04-18).

  • Début/fin de période : fenêtre d’exécution exacte (UTC) pour la tâche (p. ex., 19:54:34).

  • Espace de noms : espace de noms Kubernetes associé à l’équipe (p. ex., hyperpod-ns-ml-team).

  • Équipe : The Owning team/department (par exemple,ml-team).

  • Tâche : identifiant de la tâche/du pod (p. ex., pytorchjob-ml-pytorch-job-2p5zt-db686).

  • Instance : instance de calcul utilisée (p. ex., ml.g5.4xlarge).

  • Statut : résultat de la tâche (réussite, échec, préemption).

  • Utilisation totale : consommation totale (heures et nombre d’instances) des ressources de GPU, de CPU ou de cœurs neuronaux.

  • Classe de priorité : niveau de priorité attribué (p. ex., priorité d’entraînement).