本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
节点生命周期和标签
在 GPU 分区开始之前,Amazon SageMaker HyperPod 会在创建和更新集群期间对 HyperPod 集群实例执行深度运行状况检查。 HyperPod 运行状况监控代理持续监控 GPU 分区实例的运行状况。
MIG 配置状态
具有 GPU 分区配置的节点会经历几种状态:
-
待处理-正在使用 MIG 配置文件配置节点
-
配置-GPU 操作员正在应用 MIG 分区
-
成功-GPU 分区成功完成
-
失败-GPU 分区遇到错误
监控节点状态
# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get nodeNODE_NAME-o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe nodeNODE_NAME| grep -A 5 "Conditions:"
自定义标签和污点
您可以使用自定义标签和污点管理 MIG 配置,以标记您的 GPU 分区并将其应用于各个实例:
{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }