本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
模型部署问题
概述:本节介绍模型部署期间出现的常见问题,包括待处理状态、部署失败和监控部署进度。
模型部署停留在待处理状态
部署模型时,部署将在很长一段时间内保持 “待定” 状态。这表明推理运算符无法在您的 HyperPod 集群中启动模型部署。
受影响的组件:
在正常部署期间,推理运算符应:
-
部署模型 pod
-
创建负载均衡器
-
创建 SageMaker AI 端点
故障排除步骤:
-
检查推理运算符 pod 状态:
kubectl get pods -n hyperpod-inference-system预期输出示例:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
查看推理运算符日志并检查操作员日志中是否有错误消息:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
要找什么:
-
操作员日志中的错误消息
-
操作员窗格的状态
-
任何与部署相关的警告或故障
注意
健康的部署应在合理的时间内超过 “待处理” 状态。如果问题仍然存在,请查看推理运算符日志以了解特定的错误消息以确定根本原因。
模型部署失败状态疑难解答
当模型部署进入 “失败” 状态时,以下三个组件之一可能会出现故障:
-
模型 pod 部署
-
创建负载均衡器
-
SageMaker 创建 AI 端点
故障排除步骤:
-
检查推理运算符状态:
kubectl get pods -n hyperpod-inference-system预期输出:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
查看操作员日志:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
要找什么:
操作员日志将显示哪个组件出现故障:
-
模型 pod 部署失败
-
负载均衡器创建问题
-
SageMaker AI 端点错误
检查模型部署进度
要监控模型部署进度并识别潜在问题,您可以使用 kubectl 命令检查各种组件的状态。这有助于确定部署是正常进行,还是在模型容器创建、负载均衡器设置或 SageMaker AI 端点配置阶段遇到问题。
方法 1:检查 JumpStart 模型状态
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
要监控的关键状态指标:
-
部署状态
-
寻找
Status.State:应该显示DeploymentComplete -
查看
Status.Deployment Status.Available Replicas -
监控
Status.Conditions部署进度
-
-
SageMaker AI 端点状态
-
勾选
Status.Endpoints.Sagemaker.State:应该显示CreationCompleted -
验证
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
TLS 证书状态
-
查看
Status.Tls Certificate详情 -
在中查看证书到期时间
Last Cert Expiry Time
-
方法 2:检查推理端点配置
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
常见状态状态:
-
DeploymentInProgress: 初始部署阶段 -
DeploymentComplete: 成功部署 -
Failed: 部署失败
注意
监视 “事件” 部分是否存在任何警告或错误。检查副本数量是否与预期配置相符。验证显示的所有条件Status:
True以实现正常部署。