

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 模型部署问题
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**概述：**本节介绍模型部署期间出现的常见问题，包括待处理状态、部署失败和监控部署进度。

## 模型部署停留在待处理状态
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

部署模型时，部署将在很长一段时间内保持 “待定” 状态。这表明推理运算符无法在您的 HyperPod 集群中启动模型部署。

**受影响的组件：**

在正常部署期间，推理运算符应：
+ 部署模型 pod
+ 创建负载均衡器
+ 创建 SageMaker AI 端点

**故障排除步骤：**

1. 检查推理运算符 pod 状态：

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   预期输出示例：

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. 查看推理运算符日志并检查操作员日志中是否有错误消息：

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**要找什么：**
+ 操作员日志中的错误消息
+ 操作员窗格的状态
+ 任何与部署相关的警告或故障

**注意**  
健康的部署应在合理的时间内超过 “待处理” 状态。如果问题仍然存在，请查看推理运算符日志以了解特定的错误消息以确定根本原因。

## 模型部署失败状态疑难解答
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

当模型部署进入 “失败” 状态时，以下三个组件之一可能会出现故障：
+ 模型 pod 部署
+ 创建负载均衡器
+ SageMaker 创建 AI 端点

**故障排除步骤：**

1. 检查推理运算符状态：

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   预期输出：

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. 查看操作员日志：

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**要找什么：**

操作员日志将显示哪个组件出现故障：
+ 模型 pod 部署失败
+ 负载均衡器创建问题
+ SageMaker AI 端点错误

## 检查模型部署进度
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

要监控模型部署进度并识别潜在问题，您可以使用 kubectl 命令检查各种组件的状态。这有助于确定部署是正常进行，还是在模型容器创建、负载均衡器设置或 SageMaker AI 端点配置阶段遇到问题。

**方法 1：检查 JumpStart 模型状态**

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**要监控的关键状态指标：**

1. 部署状态
   + 寻找`Status.State`：应该显示 `DeploymentComplete`
   + 查看 `Status.Deployment Status.Available Replicas`
   + 监控`Status.Conditions`部署进度

1. SageMaker AI 端点状态
   + 勾选`Status.Endpoints.Sagemaker.State`：应该显示 `CreationCompleted`
   + 验证 `Status.Endpoints.Sagemaker.Endpoint Arn`

1. TLS 证书状态
   + 查看`Status.Tls Certificate`详情
   + 在中查看证书到期时间 `Last Cert Expiry Time`

**方法 2：检查推理端点配置**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**常见状态状态：**
+ `DeploymentInProgress`: 初始部署阶段
+ `DeploymentComplete`: 成功部署
+ `Failed`: 部署失败

**注意**  
监视 “事件” 部分是否存在任何警告或错误。检查副本数量是否与预期配置相符。验证显示的所有条件`Status: True`以实现正常部署。