Rapports d'utilisation pour l'attribution des coûts dans SageMaker HyperPod - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Rapports d'utilisation pour l'attribution des coûts dans SageMaker HyperPod

Les rapports d'utilisation dans les clusters SageMaker HyperPod orchestrés par EKS fournissent une visibilité granulaire de la consommation des ressources informatiques. Cette fonctionnalité permet aux organisations de mettre en œuvre une attribution transparente des coûts, en allouant les coûts du cluster aux équipes, aux projets ou aux départements en fonction de leur utilisation réelle. En suivant des indicateurs tels que les heures de fonctionnement du processeur et du processeur et l'utilisation de Neuron Core, capturés à la fois dans des agrégats au niveau de l'équipe et dans des ventilations spécifiques aux tâches, les rapports d'utilisation complètent la fonctionnalité de gouvernance des tâches de la société, garantissant ainsi une juste répartition des HyperPod coûts dans les clusters mutualisés partagés en :

  • Élimination des incertitudes dans la répartition des coûts

  • Lier directement les dépenses à une consommation de ressources mesurable

  • Renforcer la responsabilité basée sur l'utilisation dans les environnements d'infrastructure partagée

Prérequis

Pour utiliser cette fonctionnalité, procédez comme suit :

  • Vous avez besoin de :

    • Un SageMaker HyperPod environnement actif avec un cluster orchestré par EKS en cours d'exécution.

    • (Fortement recommandé) Gouvernance des tâches configurée avec des quotas de calcul et des règles de priorité. Pour les instructions de configuration, voir Configuration de la gouvernance des tâches.

  • Familiarisez-vous avec les concepts de base suivants :

    • Quota de calcul alloué : ressources réservées à une équipe sur la base de quotas prédéfinis dans ses politiques de gouvernance des tâches. Il s'agit d'une capacité garantie pour leurs charges de travail.

    • Calcul emprunté : ressources inactives du pool de clusters partagé que les équipes peuvent utiliser temporairement au-delà du quota qui leur est alloué. Le calcul emprunté est attribué dynamiquement en fonction des règles de priorité définies dans les politiques de gouvernance des tâches et de la disponibilité des ressources non utilisées.

    • Utilisation du calcul : mesure des ressources (GPU, CPU, heures Neuron Core) consommées par une équipe, suivie comme suit :

      • Utilisation allouée : utilisation dans les limites du quota de l'équipe.

      • Utilisation empruntée : utilisation au-delà du quota, puisée dans le pool partagé.

    • Attribution des coûts : processus d'allocation des coûts de cluster aux équipes en fonction de leur utilisation réelle du calcul, y compris les ressources consommées dans les limites de leur quota prédéfini et les ressources utilisées temporairement à partir du pool de clusters partagé au-delà de leur quota.

Types de rapports

HyperPodles rapports d'utilisation fournissent une granularité opérationnelle variable :

  • Les rapports de synthèse fournissent une visibilité à l'échelle de l'organisation sur l'utilisation du calcul, en agrégeant le nombre total d'heures de GPU/CPU/Neuron base par équipe (espace de noms) tout en faisant la distinction entre l'utilisation normale (ressources provenant du quota alloué à une équipe) et le calcul emprunté (capacité excédentaire provenant de pools partagés).

  • Des rapports détaillés fournissent une ventilation des tâches par équipe et permettent de suivre les heures de calcul exactes consacrées à l'exécution de tâches spécifiques, y compris les tâches préemptées, les modèles d'utilisation horaire et les allocations spécifiques à l'espace de noms.

Important

HyperPod les rapports d'utilisation suivent l'utilisation du calcul dans tous les espaces de noms Kubernetes d'un cluster, y compris ceux gérés par Task Governance, les espaces de noms par défaut et les espaces de noms créés en dehors de Task Governance (par exemple, via des appels d'API Kubernetes directs ou des outils externes). Cette surveillance au niveau de l'infrastructure garantit une responsabilisation complète basée sur l'utilisation, en évitant les écarts dans l'attribution des coûts pour les clusters partagés, quelle que soit la manière dont les espaces de noms sont gérés.

Formats de rapports et plage de temps

À l'aide du script Python fourni dansGénérer des rapports, les administrateurs peuvent générer des rapports d'utilisation à la demande au format CSV ou PDF, en sélectionnant des plages de temps allant des instantanés quotidiens aux fenêtres historiques de 180 jours (6 mois).

Note

Vous pouvez configurer la fenêtre d'historique pour qu'elle s'étende au-delà du maximum de 180 jours par défaut lors de la configuration de l'infrastructure de reporting. Pour plus d'informations sur la configuration de la période de conservation des données, voir Installer l'infrastructure de rapports d'utilisation à l'aide de CloudFormation.

Cas d'utilisation illustratifs

Cette fonctionnalité répond aux scénarios critiques dans les environnements IA/ML à locataires multiples, tels que :

  1. Répartition des coûts pour les clusters partagés : un administrateur gère un HyperPod cluster partagé par 20 équipes qui forment des modèles d'IA génératifs. À l'aide d'un rapport d'utilisation récapitulatif, ils analysent l'utilisation quotidienne du GPU sur 180 jours et découvrent que l'équipe A a consommé 200 heures de GPU sur un type d'instance spécifique, soit 170 heures sur le quota alloué et 30 sur le calcul emprunté. L'administrateur facture l'équipe A en fonction de cette utilisation signalée.

  2. Audit et résolution des litiges : une équipe financière met en doute l'exactitude de l'attribution des coûts, invoquant des incohérences. L'administrateur peut exporter un rapport détaillé au niveau des tâches pour vérifier les anomalies. En recoupant les horodatages, les types d'instances et les tâches préemptées au sein de l'espace de noms de l'équipe, le rapport réconcilie de manière transparente les données d'utilisation contestées.