Metrik tidak ada Kegagalan penginstalan add-on Tinjau semua pod observabilitas Pod macet dalam keadaan tertunda

Memecahkan masalah add-on observabilitas Amazon SageMaker HyperPod

Gunakan panduan berikut untuk mengatasi masalah umum dengan add-on observabilitas Amazon SageMaker HyperPod (SageMaker HyperPod).

Memecahkan masalah metrik yang hilang di Grafana Terkelola Amazon

Jika metrik tidak muncul di dasbor Grafana Terkelola Amazon, lakukan langkah-langkah berikut untuk mengidentifikasi dan menyelesaikan masalah.

Verifikasi Layanan Terkelola Amazon untuk koneksi Grafana Terkelola Prometheus-Amazon

Masuk ke konsol Grafana Terkelola Amazon.
Di panel kiri, pilih Semua ruang kerja.
Di tabel Workspaces, pilih ruang kerja Anda.
Di halaman detail ruang kerja, pilih tab Sumber data.
Verifikasi bahwa Layanan Terkelola Amazon untuk sumber data Prometheus ada.
Periksa pengaturan koneksi:
- Konfirmasikan bahwa URL endpoint sudah benar.
- Verifikasi bahwa otentikasi IAM dikonfigurasi dengan benar.
- Pilih Uji koneksi. Verifikasi bahwa statusnya adalah Sumber data berfungsi.

Verifikasi status add-on Amazon EKS

Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster.
Pilih klaster Anda.
Pilih tab Add-ons.
Verifikasi bahwa add-on SageMaker HyperPod observabilitas terdaftar dan statusnya AKTIF.
Jika statusnya tidak AKTIF, lihatMemecahkan masalah kegagalan instalasi add-on.

Verifikasi asosiasi Identitas Pod

Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster.
Pilih klaster Anda.
Pada halaman detail cluster, pilih tab Access.
Dalam tabel asosiasi Pod Identity, pilih asosiasi yang memiliki nilai properti berikut:
- Ruang nama: hyperpod-observability
- Akun layanan: hyperpod-observability-operator-otel-collector
- Pengaya: amazon-sagemaker-hyperpod-observability

Pastikan bahwa peran IAM yang dilampirkan ke asosiasi ini memiliki izin berikut.

Pastikan bahwa peran IAM yang melekat pada asosiasi ini memiliki kebijakan kepercayaan berikut. Verifikasi bahwa sumber ARN dan akun sumber sudah benar.

Periksa Layanan Terkelola Amazon untuk pelambatan Prometheus

Masuk ke Konsol Manajemen AWS dan buka konsol Service Quotas di. https://console.aws.amazon.com/servicequotas/
Di kotak Kuota terkelola, cari dan pilih Amazon Managed Service untuk Prometheus.
Pilih seri Aktif per kuota ruang kerja.
Di tab Kuota tingkat Sumber Daya, pilih Layanan Terkelola Amazon untuk ruang kerja Prometheus.
Pastikan pemanfaatannya kurang dari kuota Anda saat ini.
Jika Anda telah mencapai batas kuota, pilih ruang kerja Anda dengan memilih tombol radio di sebelah kiri, lalu pilih Permintaan peningkatan pada tingkat sumber daya.

Verifikasi caching KV dan perutean cerdas diaktifkan

Jika KVCache Metrics dasbor hilang, fitur tidak diaktifkan atau port tidak disebutkan dimodelMetrics. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihat langkah 1 dan 3 diKonfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja.

Jika Intelligent Router Metrics dasbor tidak ada, aktifkan fitur agar muncul. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihatKonfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja.

Memecahkan masalah kegagalan instalasi add-on

Jika add-on observabilitas gagal dipasang, gunakan langkah-langkah berikut untuk mendiagnosis dan menyelesaikan masalah.

Periksa status pemeriksaan kesehatan

Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster.
Pilih klaster Anda.
Pilih tab Add-ons.
Pilih add-on yang gagal.
Tinjau bagian Masalah Kesehatan.
Jika masalah kesehatan terkait dengan kredensil atau identitas pod, lihat. Verifikasi asosiasi Identitas Pod Pastikan juga bahwa add-on agen identitas pod berjalan di cluster.
Periksa kesalahan di log manajer. Untuk petunjuk, lihat Tinjau log manajer.
Hubungi AWS Support dengan rincian masalah.

Tinjau log manajer

Dapatkan pod manajer add-on:


kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager

Untuk masalah mendesak, hubungi Dukungan.

Tinjau semua pod observabilitas

Semua pod yang dibuat oleh add-on SageMaker HyperPod observability ada di namespace. hyperpod-observability Untuk mendapatkan status pod ini, jalankan perintah berikut.


kubectl get pods -n hyperpod-observability

Cari pod yang statusnya salah satu pending ataucrashloopbackoff. Jalankan perintah berikut untuk mendapatkan log dari pod yang tertunda atau gagal ini.


kubectl logs -n hyperpod-observability pod-name

Jika Anda tidak menemukan kesalahan dalam log, jalankan perintah berikut untuk mendeskripsikan pod dan mencari kesalahan.


kubectl describe -n hyperpod-observability pod pod-name

Untuk mendapatkan lebih banyak konteks, jalankan dua perintah berikut untuk menjelaskan penerapan dan daemonset untuk pod ini.


kubectl describe -n hyperpod-observability deployment deployment-name


kubectl describe -n hyperpod-observability daemonset daemonset-name

Memecahkan masalah pod yang macet dalam status tertunda

Jika Anda melihat bahwa ada pod yang terjebak dalam pending status, pastikan bahwa node cukup besar untuk muat di semua pod. Untuk memverifikasi itu, lakukan langkah-langkah berikut.

Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster.
Pilih cluster Anda.
Pilih tab Compute cluster.
Pilih node dengan tipe instance terkecil.
Di bagian alokasi kapasitas, cari pod yang tersedia.
Jika tidak ada pod yang tersedia, maka Anda memerlukan jenis instance yang lebih besar.

Untuk masalah mendesak, hubungi AWS Dukungan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Peringatan yang telah dikonfigurasi

Observabilitas dengan Amazon CloudWatch