Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memecahkan masalah add-on observabilitas Amazon SageMaker HyperPod
Gunakan panduan berikut untuk mengatasi masalah umum dengan add-on observabilitas Amazon SageMaker HyperPod (SageMaker HyperPod).
Memecahkan masalah metrik yang hilang di Grafana Terkelola Amazon
Jika metrik tidak muncul di dasbor Grafana Terkelola Amazon, lakukan langkah-langkah berikut untuk mengidentifikasi dan menyelesaikan masalah.
Verifikasi Layanan Terkelola Amazon untuk koneksi Grafana Terkelola Prometheus-Amazon
-
Masuk ke konsol Grafana Terkelola Amazon.
-
Di panel kiri, pilih Semua ruang kerja.
-
Di tabel Workspaces, pilih ruang kerja Anda.
-
Di halaman detail ruang kerja, pilih tab Sumber data.
-
Verifikasi bahwa Layanan Terkelola Amazon untuk sumber data Prometheus ada.
-
Periksa pengaturan koneksi:
-
Konfirmasikan bahwa URL endpoint sudah benar.
-
Verifikasi bahwa otentikasi IAM dikonfigurasi dengan benar.
-
Pilih Uji koneksi. Verifikasi bahwa statusnya adalah Sumber data berfungsi.
-
Verifikasi status add-on Amazon EKS
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pilih tab Add-ons.
-
Verifikasi bahwa add-on SageMaker HyperPod observabilitas terdaftar dan statusnya AKTIF.
-
Jika statusnya tidak AKTIF, lihatMemecahkan masalah kegagalan instalasi add-on.
Verifikasi asosiasi Identitas Pod
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pada halaman detail cluster, pilih tab Access.
-
Dalam tabel asosiasi Pod Identity, pilih asosiasi yang memiliki nilai properti berikut:
-
Ruang nama:
hyperpod-observability -
Akun layanan:
hyperpod-observability-operator-otel-collector -
Pengaya:
amazon-sagemaker-hyperpod-observability
-
-
Pastikan bahwa peran IAM yang dilampirkan ke asosiasi ini memiliki izin berikut.
-
Pastikan bahwa peran IAM yang melekat pada asosiasi ini memiliki kebijakan kepercayaan berikut. Verifikasi bahwa sumber ARN dan akun sumber sudah benar.
Periksa Layanan Terkelola Amazon untuk pelambatan Prometheus
-
Masuk ke Konsol Manajemen AWS dan buka konsol Service Quotas di. https://console.aws.amazon.com/servicequotas/
-
Di kotak Kuota terkelola, cari dan pilih Amazon Managed Service untuk Prometheus.
-
Pilih seri Aktif per kuota ruang kerja.
-
Di tab Kuota tingkat Sumber Daya, pilih Layanan Terkelola Amazon untuk ruang kerja Prometheus.
-
Pastikan pemanfaatannya kurang dari kuota Anda saat ini.
-
Jika Anda telah mencapai batas kuota, pilih ruang kerja Anda dengan memilih tombol radio di sebelah kiri, lalu pilih Permintaan peningkatan pada tingkat sumber daya.
Verifikasi caching KV dan perutean cerdas diaktifkan
Jika KVCache Metrics dasbor hilang, fitur tidak diaktifkan atau port tidak disebutkan dimodelMetrics. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihat langkah 1 dan 3 diKonfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja.
Jika Intelligent Router Metrics dasbor tidak ada, aktifkan fitur agar muncul. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihatKonfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja.
Memecahkan masalah kegagalan instalasi add-on
Jika add-on observabilitas gagal dipasang, gunakan langkah-langkah berikut untuk mendiagnosis dan menyelesaikan masalah.
Periksa status pemeriksaan kesehatan
-
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pilih tab Add-ons.
-
Pilih add-on yang gagal.
-
Tinjau bagian Masalah Kesehatan.
-
Jika masalah kesehatan terkait dengan kredensil atau identitas pod, lihat. Verifikasi asosiasi Identitas Pod Pastikan juga bahwa add-on agen identitas pod berjalan di cluster.
-
Periksa kesalahan di log manajer. Untuk petunjuk, lihat Tinjau log manajer.
-
Hubungi AWS Support dengan rincian masalah.
Tinjau log manajer
-
Dapatkan pod manajer add-on:
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
Untuk masalah mendesak, hubungi Dukungan.
Tinjau semua pod observabilitas
Semua pod yang dibuat oleh add-on SageMaker HyperPod observability ada di namespace. hyperpod-observability Untuk mendapatkan status pod ini, jalankan perintah berikut.
kubectl get pods -n hyperpod-observability
Cari pod yang statusnya salah satu pending ataucrashloopbackoff. Jalankan perintah berikut untuk mendapatkan log dari pod yang tertunda atau gagal ini.
kubectl logs -n hyperpod-observability pod-name
Jika Anda tidak menemukan kesalahan dalam log, jalankan perintah berikut untuk mendeskripsikan pod dan mencari kesalahan.
kubectl describe -n hyperpod-observability pod pod-name
Untuk mendapatkan lebih banyak konteks, jalankan dua perintah berikut untuk menjelaskan penerapan dan daemonset untuk pod ini.
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
Memecahkan masalah pod yang macet dalam status tertunda
Jika Anda melihat bahwa ada pod yang terjebak dalam pending status, pastikan bahwa node cukup besar untuk muat di semua pod. Untuk memverifikasi bahwa itu, lakukan langkah-langkah berikut.
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih cluster Anda.
-
Pilih tab Compute cluster.
-
Pilih node dengan tipe instance terkecil.
-
Di bagian alokasi kapasitas, cari pod yang tersedia.
-
Jika tidak ada pod yang tersedia, maka Anda memerlukan jenis instance yang lebih besar.
Untuk masalah mendesak, hubungi AWS Dukungan.
Memecahkan masalah pengamatan pada Grup Instans Terbatas
Gunakan panduan berikut untuk menyelesaikan masalah khusus untuk klaster dengan Grup Instance Terbatas.
Pod observabilitas tidak dimulai pada node terbatas
Jika pod observabilitas tidak dimulai pada node terbatas, periksa status dan peristiwa pod:
kubectl get pods -n hyperpod-observability -o wide kubectl describe podpod-name-n hyperpod-observability
Penyebab umum meliputi:
-
Kegagalan penarikan gambar: Peristiwa pod mungkin menunjukkan kesalahan penarikan gambar jika gambar kontainer observabilitas belum diizinkan terdaftar pada node yang dibatasi. Pastikan Anda menjalankan versi terbaru dari add-on observabilitas. Jika masalah berlanjut setelah peningkatan, hubungi. Dukungan
-
Toleransi taint: Verifikasi bahwa spesifikasi pod menyertakan toleransi yang diperlukan untuk node yang dibatasi. Add-on yang dimulai dari versi
v1.0.5-eksbuild.1secara otomatis menambahkan toleransi ini ketika dukungan RIG diaktifkan. Jika Anda menggunakan versi yang lebih lama, silakan tingkatkan ke versi terbaru.
Melihat log untuk pod pada node terbatas
kubectl logsPerintah ini tidak berfungsi untuk pod yang berjalan pada node terbatas. Ini adalah batasan yang diharapkan karena jalur komunikasi yang diperlukan untuk streaming log tidak tersedia pada node terbatas.
Untuk melihat log dari node terbatas, gunakan dasbor Cluster Logs di Amazon Managed Grafana, yang menanyakan Log secara langsung. CloudWatch Anda dapat memfilter berdasarkan ID instans, aliran log, tingkat log, dan pencarian teks gratis untuk menemukan entri log yang relevan.
Kegagalan resolusi DNS dalam cluster dengan node standar dan terbatas
Dalam klaster hibrida (cluster dengan grup instans standar dan terbatas), pod pada node standar mungkin mengalami batas waktu resolusi DNS saat mencoba mencapai titik akhir layanan seperti Amazon Managed AWS Service untuk Prometheus atau. CloudWatch
Penyebab: kube-dns Layanan ini memiliki titik akhir dari pod CoreDNS standar dan pod CoreDNS RIG. Pod node standar tidak dapat mencapai titik akhir RIG CoreDNS karena isolasi jaringan. Saat kube-proxy load-menyeimbangkan permintaan DNS dari pod node standar ke titik akhir RIG CoreDNS, permintaan akan habis waktu.
Resolusi: internalTrafficPolicy: Local Atur kube-dns layanan sehingga pod hanya mencapai CoreDNS di node lokalnya:
kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}'
Setelah menerapkan patch ini, restart pod observabilitas yang terpengaruh:
kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector
Metrik dari node terbatas yang tidak mencapai Amazon Managed Service untuk Prometheus
Jika metrik dari node terbatas tidak muncul di Amazon Managed Service untuk ruang kerja Prometheus:
-
Verifikasi izin peran eksekusi. Pastikan bahwa peran eksekusi untuk Grup Instance Terbatas memiliki
aps:RemoteWriteizin untuk ruang kerja Prometheus Anda. Untuk informasi selengkapnya, lihat Prasyarat tambahan untuk Grup Instans Terbatas. -
Periksa status pod pengumpul simpul. Jalankan perintah berikut dan verifikasi bahwa pod pengumpul node berjalan pada node terbatas:
kubectl get pods -n hyperpod-observability | grep node-collector -
Periksa penyebaran kolektor pusat. Dalam cluster dengan node terbatas, add-on menyebarkan satu kolektor pusat per batas jaringan. Verifikasi bahwa kolektor pusat ada untuk setiap batas:
kubectl get deployments -n hyperpod-observability | grep central-collector -
Periksa kejadian pod untuk kesalahan. Gunakan
kubectl describepada pod kolektor untuk mencari peristiwa kesalahan:kubectl describe podcollector-pod-name-n hyperpod-observability
Jika masalah berlanjut setelah memverifikasi hal di atas, hubungi Dukungan.
Verifikasi Identitas Pod tidak berlaku untuk node grup instans terbatas
Langkah-langkah Verifikasi asosiasi Identitas Pod pemecahan masalah hanya berlaku untuk node standar. Pada node terbatas, add-on menggunakan peran eksekusi grup instance cluster untuk AWS otentikasi, bukan Amazon EKS Pod Identity. Jika metrik hilang dari node terbatas, verifikasi izin peran eksekusi, bukan asosiasi Pod Identity.
Fluent Bit tidak berjalan pada node terbatas
Ini adalah perilaku yang diharapkan. Fluent Bit sengaja tidak digunakan pada node terbatas. Log dari node terbatas dipublikasikan ke CloudWatch melalui SageMaker HyperPod platform secara independen dari add-on observabilitas. Gunakan dasbor Cluster Logs di Amazon Managed Grafana untuk melihat log ini.