Surveillance de l’utilisation des ressources de calcul AWS dans Amazon SageMaker Studio Classic - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Surveillance de l’utilisation des ressources de calcul AWS dans Amazon SageMaker Studio Classic

Pour suivre l'utilisation des ressources de calcul dans le cadre de votre tâche d'entraînement, utilisez les outils de surveillance proposés par Amazon SageMaker Debugger.

Pour chaque tâche d’entraînement que vous exécutez dans SageMaker AI à l’aide du kit SageMaker Python SDK, Debugger collecte des métriques d’utilisation des ressources de base, telles que l’utilisation du CPU, l’utilisation du GPU, l’utilisation de la mémoire de GPU, le réseau et le temps d’attente des E/S toutes les 500 millisecondes. Pour consulter le tableau de bord des métriques d'utilisation des ressources liés à votre tâche d'entraînement, il vous suffit d'utiliser l'interface utilisateur de SageMaker Debugger dans SageMaker Studio Experiments.

Les opérations et étapes de deep learning peuvent s'exécuter à des intervalles de quelques millisecondes. Par rapport aux métriques Amazon CloudWatch, qui collectent des métriques à intervalles d'une seconde, Debugger fournit une granularité plus fine dans les métriques d'utilisation des ressources, jusqu'à des intervalles de 100 millisecondes (0,1 seconde) afin que vous puissiez explorer les métriques au niveau d'une opération ou d'une étape.

Si vous souhaitez modifier l'intervalle de collecte des métriques, vous pouvez ajouter un paramètre de configuration du profilage à votre lanceur de tâches d'entraînement. Par exemple, si vous utilisez le kit SageMaker AI Python SDK, vous devez transmettre le paramètre profiler_config lorsque vous créez un objet estimateur. Pour découvrir comment ajuster l'intervalle de collecte des métriques d'utilisation des ressources, consultez Modèle de code pour configurer un objet estimateur SageMaker AI avec les modules SageMaker Debugger Python dans le kit SageMaker AI Python SDK, puis Configuration des paramètres pour le profilage de base de l'utilisation des ressources du système.

En outre, vous pouvez ajouter des outils de détection de problèmes appelés règles de profilage intégrées fournies par SageMaker Debugger. Les règles de profilage intégrées exécutent une analyse par rapport aux métriques d'utilisation des ressources et détectent les problèmes de performances de calcul. Pour plus d’informations, consultez Utilisation des règles de profilage intégrées gérées par Amazon SageMaker Debugger. Vous pouvez recevoir les résultats de l'analyse des règles via l'interface utilisateur de SageMaker Debugger dans SageMaker Studio Experiments ou via le rapport de profilage de SageMaker Debugger. Vous pouvez également créer des règles de profilage personnalisées à l'aide du kit SageMaker Python SDK.

Pour en savoir plus sur les fonctionnalités de surveillance fournies par SageMaker Debugger, consultez les rubriques suivantes.