

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Problemas de implementación del modelo
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**Descripción general:** en esta sección se describen los problemas más comunes que se producen durante la implementación del modelo, incluidos los estados pendientes, las implementaciones fallidas y la supervisión del progreso de la implementación.

## El despliegue del modelo está atascado en estado pendiente
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

Al implementar un modelo, la implementación permanece en estado «pendiente» durante un período prolongado. Esto indica que el operador de inferencia no puede iniciar la implementación del modelo en el HyperPod clúster.

**Componentes afectados:**

Durante el despliegue normal, el operador de inferencia debe:
+ Implementar un pod modelo
+ Creación de un balanceador de carga
+ Cree un punto final de SageMaker IA

**Pasos para la solución de problemas:**

1. Compruebe el estado del módulo del operador de inferencia:

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Ejemplo de resultado esperado:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Revise los registros de operadores de inferencia y examine los registros de operadores para ver si hay mensajes de error:

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Qué buscar:**
+ Mensajes de error en los registros del operador
+ Estado del módulo del operador
+ Cualquier advertencia o fallo relacionado con la implementación

**nota**  
Una implementación en buen estado debería superar el estado «Pendiente» en un tiempo razonable. Si los problemas persisten, revise los registros del operador de inferencia para ver si hay mensajes de error específicos para determinar la causa raíz.

## Solución de problemas de estado de implementación del modelo
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

Cuando la implementación de un modelo entra en un estado «fallido», el error puede producirse en uno de los tres componentes:
+ Despliegue del módulo modelo
+ Creación de un balanceador de carga
+ SageMaker Creación de terminales de IA

**Pasos para la solución de problemas:**

1. Compruebe el estado del operador de inferencia:

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Resultado previsto:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Revise los registros del operador:

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Qué buscar:**

Los registros del operador indicarán qué componente falló:
+ Fallos en el despliegue del pod del modelo
+ Problemas de creación del balanceador de carga
+ SageMaker Errores de punto final de IA

## Comprobar el progreso de la implementación del modelo
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

Para supervisar el progreso de la implementación de su modelo e identificar posibles problemas, puede usar los comandos kubectl para comprobar el estado de varios componentes. Esto ayuda a determinar si la implementación avanza con normalidad o si ha tenido problemas durante las fases de creación del módulo del modelo, configuración del equilibrador de carga o SageMaker configuración de los terminales de IA.

**Método 1: compruebe el estado del modelo JumpStart **

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**Indicadores de estado clave que deben supervisarse:**

1. Estado de la implementación
   + Busque`Status.State`: Debería mostrarse `DeploymentComplete`
   + Compruebe `Status.Deployment Status.Available Replicas`
   + Supervise `Status.Conditions` el progreso de la implementación

1. SageMaker Estado del terminal de IA
   + Comprobar`Status.Endpoints.Sagemaker.State`: debería mostrarse `CreationCompleted`
   + Verificar `Status.Endpoints.Sagemaker.Endpoint Arn`

1. Estado del certificado TLS
   + Ver detalles `Status.Tls Certificate`
   + Compruebe la caducidad del certificado en `Last Cert Expiry Time`

**Método 2: compruebe la configuración del punto final de inferencia**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**Estados de estado comunes:**
+ `DeploymentInProgress`: Fase de despliegue inicial
+ `DeploymentComplete`: Despliegue exitoso
+ `Failed`: Falló el despliegue

**nota**  
Supervise la sección de eventos para detectar cualquier advertencia o error. Compruebe que el recuento de réplicas coincida con la configuración esperada. Compruebe que se cumplen todas las condiciones `Status: True` para una implementación correcta.