Berichte, Einzelheiten und Aufschlüsselung der Daten - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Berichte, Einzelheiten und Aufschlüsselung der Daten

SageMaker HyperPodDie Nutzungsberichte bieten zwei unterschiedliche Möglichkeiten zur Analyse des Rechenressourcenverbrauchs: Übersichtsberichte für die Kostenzuweisung und detaillierte Berichte für detaillierte Prüfungen. Übersichtsberichte aggregieren die clusterweite Nutzung nach Team oder Namespace und heben Trends bei zugewiesener und geliehener Rechenleistung für GPU-, CPU- und Neuron Core-Ressourcen hervor. Detaillierte Berichte gehen detailliert auf einzelne Aufgaben ein und enthalten Kennzahlen wie Ausführungsfenster, Aufgabenstatus und Auslastung nach Prioritätsklassen. In diesem Abschnitt gehen wir auf die Struktur dieser Berichte ein, verstehen ihre wichtigsten Kennzahlen und zeigen, wie Administratoren und Finanzteams zusammenfassende Trends mit Daten auf Aufgabenebene vergleichen können, um die Genauigkeit der Kostenzuweisung zu überprüfen, Unstimmigkeiten zu beheben und die gemeinsam genutzte Infrastruktur zu optimieren.

Allgemeine Berichtskopfzeilen

Sowohl zusammenfassende als auch detaillierte Berichte enthalten die folgenden Metadaten zur Kontextualisierung der Nutzungsdaten:

  • ClusterName: Der Name des EKS-orchestrierten Hyperpod-Clusters, in dem Ressourcen verbraucht wurden.

  • Typ: die Berichtskategorie (Summary Utilization Report oder Detailed Utilization Report).

  • Generierungsdatum: Datum, an dem der Bericht erstellt wurde (z. B. 2025-04-18).

  • Datumsbereich (UTC): der abgedeckte Zeitraum (z. B. 2025-04-16 to 2025-04-18).

  • Fehlende Datenperioden: Lücken bei der Datenerfassung aufgrund von Cluster-Ausfallzeiten oder Überwachungsproblemen (z. B. 2025-04-16 00:00:00 to 2025-04-19 00:00:00).

Zusammenfassungsberichte

Zusammenfassende Berichte bieten einen täglichen Überblick über den Verbrauch von Rechenressourcen in verschiedenen Teams/Namespaces und Instance-Typen, wobei zwischen zugewiesener (reserviertes Kontingent) und ausgeliehener (ausgeliehener Pool) Nutzung unterschieden wird. Diese Berichte eignen sich ideal für die Erstellung von Rechnungen, Kostenzuweisungen oder Kapazitätsprognosen.

Beispiel: Ein zusammenfassender Bericht könnte zeigen, dass Team A 200 GPU-Stunden genutzt hat – 170 Stunden aus dem zugewiesenen Kontingent und 30 geliehene.

Im Folgenden finden Sie eine strukturierte Aufschlüsselung der wichtigsten Spalten in einem zusammenfassenden Bericht:

  • Datum: das Datum der gemeldeten Nutzung (z. B. 2025-04-18).

  • Namespace: der dem Team zugeordnete Kubernetes-Namespace (z. B. hyperpod-ns-ml-team).

  • Team: The Owning team/department (z. B.). ml-team

  • Instance-Typ: die verwendete Rechen-Instance (z. B. ml.g5.4xlarge).

  • Total/Allocated/BorrowedAuslastung (Stunden): Die Aufschlüsselung der GPU-, CPU- oder Neuron Core-Nutzung nach Kategorien.

    Wobei Folgendes gilt:

    • Gesamtauslastung = Zugewiesene Auslastung + Ausgelehnte Auslastung

    • Die zugewiesene Auslastung ist die tatsächliche GPU-CPU oder Neuron Core-Stunden, die ein Team genutzt hat, begrenzt auf 100% des zugewiesenen Kontingents.

    • Die ausgeliehene Nutzung bezieht sich auf die tatsächlichen GPU-, CPU- oder Neuron-Core-Stunden, die ein Team über sein zugewiesenes Kontingent hinaus genutzt hat. Diese werden aus dem gemeinsamen Cluster-Pool auf der Grundlage der Prioritätsregeln der Aufgaben-Governance und der Verfügbarkeit von Ressourcen bezogen.

Beispiel: Insgesamt 72 GPU-Stunden (48 zugewiesene, 24 geliehene).

Anmerkung

Für NameBereiche, die nicht von Task Governance verwaltet werden, wird nur die Gesamtauslastung angezeigt.

Detaillierte Berichte

Detaillierte Berichte bieten forensische Einblicke in die Computernutzung, indem sie den Ressourcenverbrauch nach Aufgaben aufschlüsseln und detaillierte Metriken wie Zeitfenster für die Ausführung von Aufgaben, Status (z. B. erfolgreich, Fehlgeschlagen) und Nutzung nach Prioritätsklassen bereitstellen. Diese Berichte eignen sich ideal zur Überprüfung von Abrechnungsabweichungen oder zur Sicherstellung der Einhaltung von Governance-Richtlinien.

Im Folgenden finden Sie eine strukturierte Aufschlüsselung der wichtigsten Spalten in einem ausführlichen Bericht:

  • Datum: das Datum der gemeldeten Nutzung (z. B. 2025-04-18).

  • Start/Ende des Zeitraums: Exaktes Ausführungsfenster (UTC) für die Aufgabe. (z. B. 19:54:34)

  • Namespace: der dem Team zugeordnete Kubernetes-Namespace (z. B. hyperpod-ns-ml-team).

  • Team: Der Eigentümer team/department (z. B.ml-team).

  • Aufgabe: Die Kennung für den Job/Pod (z. B.). pytorchjob-ml-pytorch-job-2p5zt-db686

  • Instance: die verwendete Rechen-Instance (z. B. ml.g5.4xlarge).

  • Status: Ergebnis der Aufgabe (erfolgreich, Fehlgeschlagen, Präemptiv).

  • Gesamtauslastung: Gesamtverbrauch (Stunden und Anzahl der Instances) von GPU-, CPU- oder Neuron Core-Ressourcen.

  • Prioritätsklasse: die zugewiesene Prioritätsstufe (z. B. Trainingspriorität).