Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Masalah penerapan model
Ringkasan: Bagian ini mencakup masalah umum yang terjadi selama penerapan model, termasuk status tertunda, penerapan yang gagal, dan memantau kemajuan penerapan.
Penerapan model macet dalam status tertunda
Saat menerapkan model, penerapan tetap dalam status “Tertunda” untuk waktu yang lama. Ini menunjukkan bahwa operator inferensi tidak dapat memulai penerapan model di cluster Anda. HyperPod
Komponen yang terpengaruh:
Selama penerapan normal, operator inferensi harus:
-
Menyebarkan pod model
-
Buat penyeimbang beban
-
Buat SageMaker titik akhir AI
Langkah pemecahan masalah:
-
Periksa status pod operator inferensi:
kubectl get pods -n hyperpod-inference-systemContoh keluaran yang diharapkan:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Tinjau log operator inferensi dan periksa log operator untuk pesan kesalahan:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Apa yang harus dicari:
-
Pesan galat di log operator
-
Status Pod Operator
-
Setiap peringatan atau kegagalan terkait penerapan
catatan
Penerapan yang sehat harus berkembang melampaui status “Tertunda” dalam waktu yang wajar. Jika masalah tetap ada, tinjau log operator inferensi untuk pesan kesalahan tertentu guna menentukan akar penyebabnya.
Penerapan model pemecahan masalah status gagal
Ketika penerapan model memasuki status “Gagal”, kegagalan dapat terjadi di salah satu dari tiga komponen:
-
Penyebaran pod model
-
Pembuatan penyeimbang beban
-
SageMaker Pembuatan titik akhir AI
Langkah pemecahan masalah:
-
Periksa status operator inferensi:
kubectl get pods -n hyperpod-inference-systemKeluaran yang diharapkan
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Tinjau log operator:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
Apa yang harus dicari:
Log operator akan menunjukkan komponen mana yang gagal:
-
Kegagalan penerapan pod model
-
Masalah pembuatan penyeimbang beban
-
SageMaker Kesalahan titik akhir AI
Memeriksa kemajuan penerapan model
Untuk memantau kemajuan penerapan model Anda dan mengidentifikasi potensi masalah, Anda dapat menggunakan perintah kubectl untuk memeriksa status berbagai komponen. Ini membantu menentukan apakah penerapan berjalan normal atau mengalami masalah selama pembuatan pod model, pengaturan penyeimbang beban, atau fase konfigurasi titik akhir SageMaker AI.
Metode 1: Periksa status JumpStart model
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
Indikator status kunci untuk memantau:
-
Status Penerapan
-
Cari
Status.State: Harus menunjukkanDeploymentComplete -
Memeriksa
Status.Deployment Status.Available Replicas -
Status.ConditionsMemantau kemajuan penerapan
-
-
SageMaker Status Titik Akhir AI
-
Periksa
Status.Endpoints.Sagemaker.State: Harus menunjukkanCreationCompleted -
Verifikasi
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
Status Sertifikat TLS
-
Lihat
Status.Tls Certificatedetail -
Periksa kedaluwarsa sertifikat di
Last Cert Expiry Time
-
Metode 2: Periksa konfigurasi titik akhir inferensi
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
Status umum menyatakan:
-
DeploymentInProgress: Fase penyebaran awal -
DeploymentComplete: Penerapan yang berhasil -
Failed: Penerapan gagal
catatan
Pantau bagian Acara untuk setiap peringatan atau kesalahan. Periksa jumlah replika yang cocok dengan konfigurasi yang diharapkan. Verifikasi semua kondisi ditampilkan Status:
True untuk penerapan yang sehat.