HyperPod verwaltete das Tier-Checkpointing - Amazon SageMaker AI

HyperPod verwaltete das Tier-Checkpointing

In diesem Abschnitt wird erklärt, wie Managed Tier Checkpointing funktioniert und welche Vorteile es für groß angelegte Modellschulungen bietet.

Mit Amazon SageMaker HyperPod Managed Tier Checkpointing können Sie umfangreiche generative KI-Modelle effizienter trainieren. Es verwendet mehrere Speicherebenen, einschließlich des CPU-Speichers Ihres Clusters. Dieser Ansatz reduziert Ihre Erholungszeit und minimiert den Verlust an Trainingsfortschritten. Außerdem werden nicht ausgelastete Speicherressourcen in Ihrer Trainingsinfrastruktur genutzt.

Managed Tier Checkpointing ermöglicht das Speichern von Checkpoints mit einer höheren Frequenz im Arbeitsspeicher. Sie werden in regelmäßigen Abständen dauerhaft gespeichert. Dadurch bleiben sowohl die Leistung als auch die Zuverlässigkeit während Ihres Trainingsprozesses erhalten.

In diesem Handbuch wird beschrieben, wie Sie Managed Tier Checkpointing mit PyTorch-Frameworks auf Amazon EKS HyperPod-Clustern einrichten, konfigurieren und verwenden.

So funktioniert Managed Tier Checkpointing

Managed Tier Checkpointing verwendet einen mehrstufigen Speicheransatz. Der CPU-Speicher dient als primäre Ebene zum Speichern von Modell-Checkpoints. Sekundäre Stufen umfassen persistente Speicheroptionen wie Amazon S3.

Wenn Sie einen Checkpoint speichern, speichert das System ihn im zugewiesenen Speicherplatz auf Ihren Clusterknoten. Es repliziert automatisch Daten zwischen benachbarten Rechenknoten, um die Zuverlässigkeit zu erhöhen. Diese Replikationsstrategie schützt vor Ausfällen einzelner oder mehrerer Knoten und bietet gleichzeitig schnellen Zugriff für Wiederherstellungsvorgänge.

Das System speichert außerdem regelmäßig Checkpoints entsprechend Ihrer Konfiguration im persistenten Speicher. Dies gewährleistet eine langfristige Haltbarkeit Ihres Trainingsfortschritts.

Zu den wichtigsten Komponenten gehören:

  • Speicherverwaltungssystem: Ein Speicherverwaltungs-Daemon, der disaggregierten Speicher als Dienst für Checkpoint-Speicher bereitstellt

  • HyperPod Python-Bibliothek: Stellt eine Schnittstelle zu den disaggregierten Speicher-APIs her und bietet Dienstprogramme zum Speichern, Laden und Verwalten von Checkpoints über Stufen hinweg

  • Checkpoint-Replikation: Aus Gründen der Fehlertoleranz werden Checkpoints automatisch über mehrere Knoten hinweg repliziert

Das System lässt sich über einfache API-Aufrufe nahtlos in PyTorch-Trainingsschleifen integrieren. Es erfordert nur minimale Änderungen an Ihrem vorhandenen Code.

Vorteile

Managed Tier Checkpointing bietet mehrere Vorteile für das Training umfangreicher Modelle:

  • Verbesserte Benutzerfreundlichkeit: Verwaltet die Speicherung, Replikation, Persistenz und Wiederherstellung von Checkpoints

  • Schnellere Checkpoint-Operationen: Speicherbasierter Speicher bietet schnellere Speicher- und Ladezeiten als festplattenbasiertes Checkpointing, was zu einer schnelleren Wiederherstellung führt

  • Fehlertoleranz: Die automatische knotenübergreifende Checkpoint-Replikation schützt vor Ausfällen von Hardwareknoten

  • Minimale Codeänderungen: Die einfache API-Integration erfordert nur geringfügige Änderungen an vorhandenen Schulungsskripten

  • Verbesserter Trainingsdurchsatz: Der geringere Aufwand an Checkpoints bedeutet, dass mehr Zeit für das eigentliche Training aufgewendet wird