

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Masalah penerapan model
<a name="sagemaker-hyperpod-model-deployment-ts-deployment-issues"></a>

**Ringkasan:** Bagian ini mencakup masalah umum yang terjadi selama penerapan model, termasuk status tertunda, penerapan yang gagal, dan memantau kemajuan penerapan.

## Penerapan model macet dalam status tertunda
<a name="sagemaker-hyperpod-model-deployment-ts-pending"></a>

Saat menerapkan model, penerapan tetap dalam status “Tertunda” untuk waktu yang lama. Ini menunjukkan bahwa operator inferensi tidak dapat memulai penerapan model di cluster Anda. HyperPod 

**Komponen yang terpengaruh:**

Selama penerapan normal, operator inferensi harus:
+ Menyebarkan pod model
+ Buat penyeimbang beban
+ Buat SageMaker titik akhir AI

**Langkah pemecahan masalah:**

1. Periksa status pod operator inferensi:

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Contoh keluaran yang diharapkan:

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Tinjau log operator inferensi dan periksa log operator untuk pesan kesalahan:

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Apa yang harus dicari:**
+ Pesan galat di log operator
+ Status Pod Operator
+ Setiap peringatan atau kegagalan terkait penerapan

**catatan**  
Penerapan yang sehat harus berkembang melampaui status “Tertunda” dalam waktu yang wajar. Jika masalah tetap ada, tinjau log operator inferensi untuk pesan kesalahan tertentu guna menentukan akar penyebabnya.

## Penerapan model pemecahan masalah status gagal
<a name="sagemaker-hyperpod-model-deployment-ts-failed"></a>

Ketika penerapan model memasuki status “Gagal”, kegagalan dapat terjadi di salah satu dari tiga komponen:
+ Penyebaran pod model
+ Pembuatan penyeimbang beban
+ SageMaker Pembuatan titik akhir AI

**Langkah pemecahan masalah:**

1. Periksa status operator inferensi:

   ```
   kubectl get pods -n hyperpod-inference-system
   ```

   Keluaran yang diharapkan

   ```
   NAME                                                           READY   STATUS    RESTARTS   AGE
   hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h
   ```

1. Tinjau log operator:

   ```
   kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
   ```

**Apa yang harus dicari:**

Log operator akan menunjukkan komponen mana yang gagal:
+ Kegagalan penerapan pod model
+ Masalah pembuatan penyeimbang beban
+ SageMaker Kesalahan titik akhir AI

## Memeriksa kemajuan penerapan model
<a name="sagemaker-hyperpod-model-deployment-ts-progress"></a>

Untuk memantau kemajuan penerapan model Anda dan mengidentifikasi potensi masalah, Anda dapat menggunakan perintah kubectl untuk memeriksa status berbagai komponen. Ini membantu menentukan apakah penerapan berjalan normal atau mengalami masalah selama pembuatan pod model, pengaturan penyeimbang beban, atau fase konfigurasi titik akhir SageMaker AI.

**Metode 1: Periksa status JumpStart model**

```
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
```

**Indikator status kunci untuk memantau:**

1. Status Penerapan
   + Cari`Status.State`: Harus menunjukkan `DeploymentComplete`
   + Memeriksa `Status.Deployment Status.Available Replicas`
   + `Status.Conditions`Memantau kemajuan penerapan

1. SageMaker Status Titik Akhir AI
   + Periksa`Status.Endpoints.Sagemaker.State`: Harus menunjukkan `CreationCompleted`
   + Verifikasi `Status.Endpoints.Sagemaker.Endpoint Arn`

1. Status Sertifikat TLS
   + Lihat `Status.Tls Certificate` detail
   + Periksa kedaluwarsa sertifikat di `Last Cert Expiry Time`

**Metode 2: Periksa konfigurasi titik akhir inferensi**

```
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
```

**Status umum menyatakan:**
+ `DeploymentInProgress`: Fase penyebaran awal
+ `DeploymentComplete`: Penerapan yang berhasil
+ `Failed`: Penerapan gagal

**catatan**  
Pantau bagian Acara untuk setiap peringatan atau kesalahan. Periksa jumlah replika yang cocok dengan konfigurasi yang diharapkan. Verifikasi semua kondisi ditampilkan `Status: True` untuk penerapan yang sehat.