Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memecahkan masalah add-on observabilitas Amazon SageMaker HyperPod
Gunakan panduan berikut untuk mengatasi masalah umum dengan add-on observabilitas Amazon SageMaker HyperPod (SageMaker HyperPod).
Memecahkan masalah metrik yang hilang di Grafana Terkelola Amazon
Jika metrik tidak muncul di dasbor Grafana Terkelola Amazon, lakukan langkah-langkah berikut untuk mengidentifikasi dan menyelesaikan masalah.
Verifikasi Layanan Terkelola Amazon untuk koneksi Grafana Terkelola Prometheus-Amazon
-
Masuk ke konsol Grafana Terkelola Amazon.
-
Di panel kiri, pilih Semua ruang kerja.
-
Di tabel Workspaces, pilih ruang kerja Anda.
-
Di halaman detail ruang kerja, pilih tab Sumber data.
-
Verifikasi bahwa Layanan Terkelola Amazon untuk sumber data Prometheus ada.
-
Periksa pengaturan koneksi:
-
Konfirmasikan bahwa URL endpoint sudah benar.
-
Verifikasi bahwa otentikasi IAM dikonfigurasi dengan benar.
-
Pilih Uji koneksi. Verifikasi bahwa statusnya adalah Sumber data berfungsi.
-
Verifikasi status add-on Amazon EKS
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pilih tab Add-ons.
-
Verifikasi bahwa add-on SageMaker HyperPod observabilitas terdaftar dan statusnya AKTIF.
-
Jika statusnya tidak AKTIF, lihatMemecahkan masalah kegagalan instalasi add-on.
Verifikasi asosiasi Identitas Pod
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pada halaman detail cluster, pilih tab Access.
-
Dalam tabel asosiasi Pod Identity, pilih asosiasi yang memiliki nilai properti berikut:
-
Ruang nama:
hyperpod-observability -
Akun layanan:
hyperpod-observability-operator-otel-collector -
Pengaya:
amazon-sagemaker-hyperpod-observability
-
-
Pastikan bahwa peran IAM yang dilampirkan ke asosiasi ini memiliki izin berikut.
-
Pastikan bahwa peran IAM yang melekat pada asosiasi ini memiliki kebijakan kepercayaan berikut. Verifikasi bahwa sumber ARN dan akun sumber sudah benar.
Periksa Layanan Terkelola Amazon untuk pelambatan Prometheus
-
Masuk ke Konsol Manajemen AWS dan buka konsol Service Quotas di. https://console.aws.amazon.com/servicequotas/
-
Di kotak Kuota terkelola, cari dan pilih Amazon Managed Service untuk Prometheus.
-
Pilih seri Aktif per kuota ruang kerja.
-
Di tab Kuota tingkat Sumber Daya, pilih Layanan Terkelola Amazon untuk ruang kerja Prometheus.
-
Pastikan pemanfaatannya kurang dari kuota Anda saat ini.
-
Jika Anda telah mencapai batas kuota, pilih ruang kerja Anda dengan memilih tombol radio di sebelah kiri, lalu pilih Permintaan peningkatan pada tingkat sumber daya.
Verifikasi caching KV dan perutean cerdas diaktifkan
Jika KVCache Metrics dasbor hilang, fitur tidak diaktifkan atau port tidak disebutkan dimodelMetrics. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihat langkah 1 dan 3 diKonfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja.
Jika Intelligent Router Metrics dasbor tidak ada, aktifkan fitur agar muncul. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihatKonfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja.
Memecahkan masalah kegagalan instalasi add-on
Jika add-on observabilitas gagal dipasang, gunakan langkah-langkah berikut untuk mendiagnosis dan menyelesaikan masalah.
Periksa status pemeriksaan kesehatan
-
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pilih tab Add-ons.
-
Pilih add-on yang gagal.
-
Tinjau bagian Masalah Kesehatan.
-
Jika masalah kesehatan terkait dengan kredensil atau identitas pod, lihat. Verifikasi asosiasi Identitas Pod Pastikan juga bahwa add-on agen identitas pod berjalan di cluster.
-
Periksa kesalahan di log manajer. Untuk petunjuk, lihat Tinjau log manajer.
-
Hubungi AWS Support dengan rincian masalah.
Tinjau log manajer
-
Dapatkan pod manajer add-on:
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
Untuk masalah mendesak, hubungi Dukungan.
Tinjau semua pod observabilitas
Semua pod yang dibuat oleh add-on SageMaker HyperPod observability ada di namespace. hyperpod-observability Untuk mendapatkan status pod ini, jalankan perintah berikut.
kubectl get pods -n hyperpod-observability
Cari pod yang statusnya salah satu pending ataucrashloopbackoff. Jalankan perintah berikut untuk mendapatkan log dari pod yang tertunda atau gagal ini.
kubectl logs -n hyperpod-observability pod-name
Jika Anda tidak menemukan kesalahan dalam log, jalankan perintah berikut untuk mendeskripsikan pod dan mencari kesalahan.
kubectl describe -n hyperpod-observability pod pod-name
Untuk mendapatkan lebih banyak konteks, jalankan dua perintah berikut untuk menjelaskan penerapan dan daemonset untuk pod ini.
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
Memecahkan masalah pod yang macet dalam status tertunda
Jika Anda melihat bahwa ada pod yang terjebak dalam pending status, pastikan bahwa node cukup besar untuk muat di semua pod. Untuk memverifikasi itu, lakukan langkah-langkah berikut.
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih cluster Anda.
-
Pilih tab Compute cluster.
-
Pilih node dengan tipe instance terkecil.
-
Di bagian alokasi kapasitas, cari pod yang tersedia.
-
Jika tidak ada pod yang tersedia, maka Anda memerlukan jenis instance yang lebih besar.
Untuk masalah mendesak, hubungi AWS Dukungan.