Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memecahkan masalah add-on observabilitas Amazon SageMaker HyperPod
Gunakan panduan berikut untuk mengatasi masalah umum dengan add-on observabilitas Amazon SageMaker HyperPod (SageMaker HyperPod).
Memecahkan masalah metrik yang hilang di Grafana Terkelola Amazon
Jika metrik tidak muncul di dasbor Grafana Terkelola Amazon Anda, lakukan langkah-langkah berikut untuk mengidentifikasi dan menyelesaikan masalah.
Verifikasi Layanan Terkelola Amazon untuk koneksi Grafana Terkelola Prometheus-Amazon
-
Masuk ke konsol Grafana Terkelola Amazon.
-
Di panel kiri, pilih Semua ruang kerja.
-
Di tabel Workspaces, pilih ruang kerja Anda.
-
Di halaman detail ruang kerja, pilih tab Sumber data.
-
Verifikasi bahwa Layanan Terkelola Amazon untuk sumber data Prometheus ada.
-
Periksa pengaturan koneksi:
-
Konfirmasikan bahwa URL endpoint sudah benar.
-
Verifikasi bahwa otentikasi IAM dikonfigurasi dengan benar.
-
Pilih Uji koneksi. Verifikasi bahwa statusnya adalah Sumber data berfungsi.
-
Verifikasi status add-on Amazon EKS
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pilih tab Add-ons.
-
Verifikasi bahwa add-on SageMaker HyperPod observabilitas terdaftar dan statusnya AKTIF.
-
Jika status tidak AKTIF, salin pesan kesalahan dan kontak AWS Dukungan.
Verifikasi asosiasi Identitas Pod
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pada halaman detail cluster, pilih tab Access.
-
Dalam tabel asosiasi Pod Identity, pilih asosiasi yang memiliki nilai properti berikut:
-
Ruang nama:
hyperpod-observability
-
Akun layanan:
hyperpod-observability-operator-otel-collector
-
Pengaya:
amazon-sagemaker-hyperpod-observability
-
-
Pastikan bahwa peran IAM yang dilampirkan ke asosiasi ini memiliki izin berikut.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
Wilayah AWS
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:Wilayah AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:Wilayah AWS
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
Periksa Layanan Terkelola Amazon untuk pelambatan Prometheus
-
Masuk ke AWS Management Console dan buka konsol Service Quotas di. https://console.aws.amazon.com/servicequotas/
-
Di kotak Kuota terkelola, cari dan pilih Amazon Managed Service untuk Prometheus.
-
Pilih seri Aktif per kuota ruang kerja.
-
Di tab Kuota tingkat Sumber Daya, pilih Layanan Terkelola Amazon untuk ruang kerja Prometheus.
-
Pastikan pemanfaatannya kurang dari kuota Anda saat ini.
-
Jika Anda telah mencapai batas kuota, pilih ruang kerja Anda dengan memilih tombol radio di sebelah kiri, lalu pilih Permintaan peningkatan pada tingkat sumber daya.
Memecahkan masalah kegagalan instalasi add-on
Jika add-on observabilitas gagal dipasang, gunakan langkah-langkah berikut untuk mendiagnosis dan menyelesaikan masalah.
Periksa status pemeriksaan kesehatan
-
Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster
. -
Pilih klaster Anda.
-
Pilih tab Add-ons.
-
Pilih add-on yang gagal.
-
Tinjau bagian Masalah Kesehatan.
-
Hubungi AWS Support dengan rincian masalah.
Tinjau log manajer
-
Dapatkan pod manajer add-on:
kubectl get pods -n hyperpod-observability | grep manager
-
Periksa log:
kubectl logs -n kube-system
addon-manager-pod-name
Untuk masalah mendesak, hubungi AWS Dukungan.