View a markdown version of this page

Masalah penerapan model - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Masalah penerapan model

Ringkasan: Bagian ini mencakup masalah umum yang terjadi selama penerapan model, termasuk status tertunda, penerapan yang gagal, dan memantau kemajuan penerapan.

Penerapan model macet dalam status tertunda

Saat menerapkan model, penerapan tetap dalam status “Tertunda” untuk waktu yang lama. Ini menunjukkan bahwa operator inferensi tidak dapat memulai penerapan model di cluster Anda. HyperPod

Komponen yang terpengaruh:

Selama penerapan normal, operator inferensi harus:

  • Menyebarkan pod model

  • Buat penyeimbang beban

  • Buat SageMaker titik akhir AI

Langkah pemecahan masalah:

  1. Periksa status pod operator inferensi:

    kubectl get pods -n hyperpod-inference-system

    Contoh keluaran yang diharapkan:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Tinjau log operator inferensi dan periksa log operator untuk pesan kesalahan:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Apa yang harus dicari:

  • Pesan galat di log operator

  • Status Pod Operator

  • Setiap peringatan atau kegagalan terkait penerapan

catatan

Penerapan yang sehat harus berkembang melampaui status “Tertunda” dalam waktu yang wajar. Jika masalah tetap ada, tinjau log operator inferensi untuk pesan kesalahan tertentu guna menentukan akar penyebabnya.

Penerapan model pemecahan masalah status gagal

Ketika penerapan model memasuki status “Gagal”, kegagalan dapat terjadi di salah satu dari tiga komponen:

  • Penyebaran pod model

  • Pembuatan penyeimbang beban

  • SageMaker Pembuatan titik akhir AI

Langkah pemecahan masalah:

  1. Periksa status operator inferensi:

    kubectl get pods -n hyperpod-inference-system

    Keluaran yang diharapkan

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Tinjau log operator:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

Apa yang harus dicari:

Log operator akan menunjukkan komponen mana yang gagal:

  • Kegagalan penerapan pod model

  • Masalah pembuatan penyeimbang beban

  • SageMaker Kesalahan titik akhir AI

Memeriksa kemajuan penerapan model

Untuk memantau kemajuan penerapan model Anda dan mengidentifikasi potensi masalah, Anda dapat menggunakan perintah kubectl untuk memeriksa status berbagai komponen. Ini membantu menentukan apakah penerapan berjalan normal atau mengalami masalah selama pembuatan pod model, pengaturan penyeimbang beban, atau fase konfigurasi titik akhir SageMaker AI.

Metode 1: Periksa status JumpStart model

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Indikator status kunci untuk memantau:

  1. Status Penerapan

    • CariStatus.State: Harus menunjukkan DeploymentComplete

    • Memeriksa Status.Deployment Status.Available Replicas

    • Status.ConditionsMemantau kemajuan penerapan

  2. SageMaker Status Titik Akhir AI

    • PeriksaStatus.Endpoints.Sagemaker.State: Harus menunjukkan CreationCompleted

    • Verifikasi Status.Endpoints.Sagemaker.Endpoint Arn

  3. Status Sertifikat TLS

    • Lihat Status.Tls Certificate detail

    • Periksa kedaluwarsa sertifikat di Last Cert Expiry Time

Metode 2: Periksa konfigurasi titik akhir inferensi

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

Status umum menyatakan:

  • DeploymentInProgress: Fase penyebaran awal

  • DeploymentComplete: Penerapan yang berhasil

  • Failed: Penerapan gagal

catatan

Pantau bagian Acara untuk setiap peringatan atau kesalahan. Periksa jumlah replika yang cocok dengan konfigurasi yang diharapkan. Verifikasi semua kondisi ditampilkan Status: True untuk penerapan yang sehat.