Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Überwachen Sie die Auslastung von AWS Rechenressourcen in Amazon SageMaker Studio Classic
Verwenden Sie die von Amazon SageMaker Debugger angebotenen Überwachungstools, um die Ressourcenauslastung Ihres Trainingsauftrages zu verfolgen.
Für jeden Trainingsjob, den Sie in SageMaker AI mit dem SageMaker Python SDK ausführen, erfasst der Debugger alle 500 Millisekunden grundlegende Kennzahlen zur Ressourcenauslastung, wie CPU-Auslastung, GPU-Auslastung, GPU-Speicherauslastung, Netzwerk und I/O-Wartezeit. Um das Dashboard mit den Kennzahlen zur Ressourcenauslastung Ihres Trainingsauftrages zu sehen, verwenden Sie einfach die SageMaker Debugger-Benutzeroberfläche in SageMaker Studio Experiments.
Deep-Learning-Operationen und -Schritte können in Intervallen von Millisekunden ausgeführt werden. Im Vergleich zu Amazon CloudWatch-Metriken, die Metriken in Intervallen von 1 Sekunde erfassen, bietet Debugger eine feinere Granularität der Metriken zur Ressourcenauslastung in Intervallen von bis zu 100 Millisekunden (0,1 Sekunden), sodass Sie die Metriken auf der Ebene eines Vorgangs oder Schritts eingehend untersuchen können.
Wenn Sie das Zeitintervall für die Metrikerfassung ändern möchten, können Sie Ihrem Trainingsauftrag Launcher einen Parameter für die Profilkonfiguration hinzufügen. Wenn Sie beispielsweise das Python-SDK von SageMaker AI verwenden, müssen Sie den profiler_config Parameter übergeben, wenn Sie ein Schätzerobjekt erstellen. Informationen zur Anpassung des Erfassungsintervalls der Metriken zur Ressourcenauslastung finden Sie unter Code-Vorlage für die Konfiguration eines SageMaker-AI-Schätzerobjekts mit den SageMaker Debugger Python-Modulen im SageMaker AI Python-SDK und dann Konfigurieren Sie Einstellungen für die grundlegende Profilerstellung der Systemressourcenauslastung.
Darüber hinaus können Sie Tools zur Problemerkennung hinzufügen, die als integrierte Profilerstellungsregeln bezeichnet werden und von SageMaker Debugger bereitgestellt werden. Die integrierten Profilerstellungsregeln führen Analysen anhand der Kennzahlen zur Ressourcenauslastung durch und erkennen Probleme mit der Rechenleistung. Weitere Informationen finden Sie unter Integrierte Profiler-Regeln verwenden, die vom Amazon SageMaker Debugger verwaltet werden. Sie können die Ergebnisse der Regelanalyse über die SageMaker Debugger-Benutzeroberfläche in SageMaker Studio Experiments oder den SageMaker Debugger Profiling Report abrufen. Sie können mit dem SageMaker Python SDK auch benutzerdefinierte Profilerstellungsregeln erstellen.
Weitere Informationen zu den von SageMaker Debugger bereitgestellten Überwachungsfunktionen finden Sie in den folgenden Themen.