Nutzungsberichte für die Kostenzuweisung in SageMaker HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Nutzungsberichte für die Kostenzuweisung in SageMaker HyperPod

Die Nutzungsberichterstattung in SageMaker HyperPod EKS-orchestrierten Clustern bietet einen detaillierten Überblick über den Verbrauch von Rechenressourcen. Diese Funktion ermöglicht es Unternehmen, eine transparente Kostenzuweisung zu implementieren und die Clusterkosten auf der Grundlage ihrer tatsächlichen Nutzung den Teams, Projekten oder Abteilungen zuzuweisen. Durch die Erfassung von Kennzahlen wie GPU/CPU Stunden und Neuron Core-Auslastung, die sowohl in Aggregaten auf Teamebene als auch in aufgabenspezifischen Aufschlüsselungen erfasst werden, ergänzt HyperPod die Nutzungsberichterstattung die Task-Governance-Funktionalität und gewährleistet eine faire Kostenverteilung in gemeinsam genutzten Multi-Tenant-Clustern durch:

  • Schluss mit Rätselraten bei der Kostenzuweisung

  • Direkte Verknüpfung von Ausgaben mit messbarem Ressourcenverbrauch

  • Durchsetzung der nutzungsbasierten Rechenschaftspflicht in Umgebungen mit gemeinsam genutzter Infrastruktur

Voraussetzungen

So nutzen Sie diese Funktion:

  • Sie benötigen:

    • Eine aktive SageMaker HyperPod Umgebung mit einem laufenden EKS-orchestrierten Cluster.

    • (Dringend empfohlen) Task Governance, konfiguriert mit Rechenquoten und Prioritätsregeln. Anweisungen zur Einrichtung finden Sie unter Einrichtung von Task Governance.

  • Machen Sie sich mit diesen Kernkonzepten vertraut:

    • Zugewiesenes Rechenkontingent: Ressourcen, die einem Team auf der Grundlage vordefinierter Kontingente in den Task-Governance-Richtlinien vorbehalten sind. Das ist garantierte Kapazität für ihre Workloads.

    • Ausgeliehene Rechenleistung: Ungenutzte Ressourcen aus dem gemeinsam genutzten Clusterpool, die Teams vorübergehend über ihr zugewiesenes Kontingent hinaus nutzen können. Die ausgeliehene Rechenleistung wird dynamisch zugewiesen, basierend auf den Prioritätsregeln in den Task-Governance-Richtlinien und der Verfügbarkeit ungenutzter Ressourcen.

    • Computernutzung: Die Messung der von einem Team verbrauchten Ressourcen (GPU, CPU, Neuron Core-Stunden) wird wie folgt erfasst:

      • Zugewiesene Auslastung: Nutzung innerhalb des Kontingents des Teams.

      • Ausgeliehene Nutzung: Nutzung, die über das Kontingent hinausgeht und aus dem gemeinsamen Pool stammt.

    • Kostenzuweisung: Der Prozess der Zuweisung von Cluster-Kosten an Teams auf der Grundlage ihrer tatsächlichen Computernutzung, einschließlich der Ressourcen, die innerhalb ihres vordefinierten Kontingents verbraucht wurden, und der Ressourcen, die vorübergehend aus dem gemeinsam genutzten Cluster-Pool verwendet wurden, außerhalb ihres Kontingents.

Typen von Berichten

HyperPodDie Nutzungsberichte bieten unterschiedliche betriebliche Granularität:

  • Übersichtsberichte bieten unternehmensweite Einblicke in die Computernutzung. Sie aggregieren die gesamten GPU/CPU/Neuron Kernstunden pro Team (Namespace) und unterscheiden dabei zwischen regulärer Nutzung (Ressourcen aus dem zugewiesenen Kontingent eines Teams) und geliehener Rechenleistung (Überkapazität aus gemeinsam genutzten Pools).

  • Detaillierte Berichte bieten Aufschlüsselungen auf Aufgabenebene nach Teams und verfolgen die exakten Rechenstunden, die für die Ausführung bestimmter Aufgaben aufgewendet wurden — einschließlich Aufgaben, die zuvor ausgeführt wurden, stündliche Nutzungsmuster und namespacespezifische Zuweisungen.

Wichtig

HyperPod Die Nutzungsberichterstattung verfolgt die Computernutzung in allen Kubernetes-Namespaces in einem Cluster — einschließlich der von Task Governance verwalteten Namespaces, Standard-Namespaces und Namespaces, die außerhalb von Task Governance erstellt wurden (z. B. über direkte Kubernetes-API-Aufrufe oder externe Tools). Diese Überwachung auf Infrastrukturebene gewährleistet eine umfassende nutzungsbasierte Rechenschaftspflicht und verhindert so Lücken bei der Kostenzuweisung für gemeinsam genutzte Cluster, unabhängig davon, wie Namespaces verwaltet werden.

Formate und Zeitraum der Berichte

Mithilfe des unter bereitgestellten Python-Skripts können Administratoren Nutzungsberichte auf Abruf im CSV- oder PDF-Format erstellen und dabei Zeitbereiche von täglichen Schnappschüssen bis hin zu historischen Zeitfenstern mit 180 Tagen (6 Monaten) auswählen. Generieren Sie Berichte

Anmerkung

Bei der Einrichtung der Berichtsinfrastruktur können Sie das historische Fenster so konfigurieren, dass es über das standardmäßige Maximum von 180 Tagen hinausgeht. Weitere Informationen zur Konfiguration der Datenaufbewahrungsdauer finden Sie unter Installieren der Nutzungsberichtsinfrastruktur mithilfe von. CloudFormation

Veranschauliche Anwendungsfälle

Diese Funktion eignet sich für kritische Szenarien in AI/ML Umgebungen mit mehreren Mandanten, z. B.:

  1. Kostenzuweisung für gemeinsam genutzte Cluster: Ein Administrator verwaltet einen HyperPod Cluster, der von 20 Teams gemeinsam genutzt wird, die generative KI-Modelle trainieren. Mithilfe eines zusammenfassenden Nutzungsberichts analysieren sie die tägliche GPU-Auslastung über 180 Tage und stellen fest, dass Team A 200 GPU-Stunden eines bestimmten Instanztyps verbraucht hat — 170 aus dem zugewiesenen Kontingent und 30 aus geliehener Rechenleistung. Der Administrator stellt Team A eine Rechnung auf der Grundlage dieser gemeldeten Nutzung in Rechnung.

  2. Prüfung und Streitbeilegung: Ein Finanzteam stellt die Richtigkeit der Kostenzurechnung in Frage und führt Inkonsistenzen an. Der Administrator kann einen detaillierten Bericht auf Aufgabenebene exportieren, um Unstimmigkeiten zu prüfen. Durch Querverweise auf Zeitstempel, Instanztypen und Preemptive Jobs innerhalb des Team-Namespaces werden im Bericht widersprüchliche Nutzungsdaten transparent abgeglichen.