Penerapan model macet dalam status tertunda Penerapan model pemecahan masalah status gagal Memeriksa kemajuan penerapan model

Masalah penerapan model

Ringkasan: Bagian ini mencakup masalah umum yang terjadi selama penerapan model, termasuk status tertunda, penerapan yang gagal, dan memantau kemajuan penerapan.

Penerapan model macet dalam status tertunda

Saat menerapkan model, penerapan tetap dalam status “Tertunda” untuk waktu yang lama. Ini menunjukkan bahwa operator inferensi tidak dapat memulai penerapan model di cluster Anda. HyperPod

Komponen yang terpengaruh:

Selama penerapan normal, operator inferensi harus:

Menyebarkan pod model
Buat penyeimbang beban
Buat SageMaker titik akhir AI

Langkah pemecahan masalah:

Periksa status pod operator inferensi:


kubectl get pods -n hyperpod-inference-system

Contoh keluaran yang diharapkan:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Tinjau log operator inferensi dan periksa log operator untuk pesan kesalahan:


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Apa yang harus dicari:

Pesan galat di log operator
Status Pod Operator
Setiap peringatan atau kegagalan terkait penerapan

catatan

Penerapan yang sehat harus berkembang melampaui status “Tertunda” dalam waktu yang wajar. Jika masalah tetap ada, tinjau log operator inferensi untuk pesan kesalahan tertentu guna menentukan akar penyebabnya.

Penerapan model pemecahan masalah status gagal

Ketika penerapan model memasuki status “Gagal”, kegagalan dapat terjadi di salah satu dari tiga komponen:

Penyebaran pod model
Pembuatan penyeimbang beban
SageMaker Pembuatan titik akhir AI

Langkah pemecahan masalah:

Periksa status operator inferensi:


kubectl get pods -n hyperpod-inference-system

Keluaran yang diharapkan


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Tinjau log operator:


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Apa yang harus dicari:

Log operator akan menunjukkan komponen mana yang gagal:

Kegagalan penerapan pod model
Masalah pembuatan penyeimbang beban
SageMaker Kesalahan titik akhir AI

Memeriksa kemajuan penerapan model

Untuk memantau kemajuan penerapan model Anda dan mengidentifikasi potensi masalah, Anda dapat menggunakan perintah kubectl untuk memeriksa status berbagai komponen. Ini membantu menentukan apakah penerapan berjalan normal atau mengalami masalah selama pembuatan pod model, pengaturan penyeimbang beban, atau fase konfigurasi titik akhir SageMaker AI.

Metode 1: Periksa status JumpStart model


kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Indikator status kunci untuk memantau:

Status Penerapan
- CariStatus.State: Harus menunjukkan DeploymentComplete
- Memeriksa Status.Deployment Status.Available Replicas
- Status.ConditionsMemantau kemajuan penerapan
SageMaker Status Titik Akhir AI
- PeriksaStatus.Endpoints.Sagemaker.State: Harus menunjukkan CreationCompleted
- Verifikasi Status.Endpoints.Sagemaker.Endpoint Arn
Status Sertifikat TLS
- Lihat Status.Tls Certificate detail
- Periksa kedaluwarsa sertifikat di Last Cert Expiry Time

Metode 2: Periksa konfigurasi titik akhir inferensi


kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Status umum menyatakan:

DeploymentInProgress: Fase penyebaran awal
DeploymentComplete: Penerapan yang berhasil
Failed: Penerapan gagal

catatan

Pantau bagian Acara untuk setiap peringatan atau kesalahan. Periksa jumlah replika yang cocok dengan konfigurasi yang diharapkan. Verifikasi semua kondisi ditampilkan Status: True untuk penerapan yang sehat.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Batas waktu pengunduhan sertifikat

Masalah izin VPC ENI