View a markdown version of this page

模型部署问题 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

模型部署问题

概述:本节介绍模型部署期间出现的常见问题,包括待处理状态、部署失败和监控部署进度。

模型部署停留在待处理状态

部署模型时,部署将在很长一段时间内保持 “待定” 状态。这表明推理运算符无法在您的 HyperPod 集群中启动模型部署。

受影响的组件:

在正常部署期间,推理运算符应:

  • 部署模型 pod

  • 创建负载均衡器

  • 创建 SageMaker AI 端点

故障排除步骤:

  1. 检查推理运算符 pod 状态:

    kubectl get pods -n hyperpod-inference-system

    预期输出示例:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. 查看推理运算符日志并检查操作员日志中是否有错误消息:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

要找什么:

  • 操作员日志中的错误消息

  • 操作员窗格的状态

  • 任何与部署相关的警告或故障

注意

健康的部署应在合理的时间内超过 “待处理” 状态。如果问题仍然存在,请查看推理运算符日志以了解特定的错误消息以确定根本原因。

模型部署失败状态疑难解答

当模型部署进入 “失败” 状态时,以下三个组件之一可能会出现故障:

  • 模型 pod 部署

  • 创建负载均衡器

  • SageMaker 创建 AI 端点

故障排除步骤:

  1. 检查推理运算符状态:

    kubectl get pods -n hyperpod-inference-system

    预期输出:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. 查看操作员日志:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

要找什么:

操作员日志将显示哪个组件出现故障:

  • 模型 pod 部署失败

  • 负载均衡器创建问题

  • SageMaker AI 端点错误

检查模型部署进度

要监控模型部署进度并识别潜在问题,您可以使用 kubectl 命令检查各种组件的状态。这有助于确定部署是正常进行,还是在模型容器创建、负载均衡器设置或 SageMaker AI 端点配置阶段遇到问题。

方法 1:检查 JumpStart 模型状态

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

要监控的关键状态指标:

  1. 部署状态

    • 寻找Status.State:应该显示 DeploymentComplete

    • 查看 Status.Deployment Status.Available Replicas

    • 监控Status.Conditions部署进度

  2. SageMaker AI 端点状态

    • 勾选Status.Endpoints.Sagemaker.State:应该显示 CreationCompleted

    • 验证 Status.Endpoints.Sagemaker.Endpoint Arn

  3. TLS 证书状态

    • 查看Status.Tls Certificate详情

    • 在中查看证书到期时间 Last Cert Expiry Time

方法 2:检查推理端点配置

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

常见状态状态:

  • DeploymentInProgress: 初始部署阶段

  • DeploymentComplete: 成功部署

  • Failed: 部署失败

注意

监视 “事件” 部分是否存在任何警告或错误。检查副本数量是否与预期配置相符。验证显示的所有条件Status: True以实现正常部署。