Memecahkan masalah add-on observabilitas Amazon SageMaker HyperPod - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memecahkan masalah add-on observabilitas Amazon SageMaker HyperPod

Gunakan panduan berikut untuk mengatasi masalah umum dengan add-on observabilitas Amazon SageMaker HyperPod (SageMaker HyperPod).

Memecahkan masalah metrik yang hilang di Grafana Terkelola Amazon

Jika metrik tidak muncul di dasbor Grafana Terkelola Amazon Anda, lakukan langkah-langkah berikut untuk mengidentifikasi dan menyelesaikan masalah.

Verifikasi Layanan Terkelola Amazon untuk koneksi Grafana Terkelola Prometheus-Amazon

  1. Masuk ke konsol Grafana Terkelola Amazon.

  2. Di panel kiri, pilih Semua ruang kerja.

  3. Di tabel Workspaces, pilih ruang kerja Anda.

  4. Di halaman detail ruang kerja, pilih tab Sumber data.

  5. Verifikasi bahwa Layanan Terkelola Amazon untuk sumber data Prometheus ada.

  6. Periksa pengaturan koneksi:

    • Konfirmasikan bahwa URL endpoint sudah benar.

    • Verifikasi bahwa otentikasi IAM dikonfigurasi dengan benar.

    • Pilih Uji koneksi. Verifikasi bahwa statusnya adalah Sumber data berfungsi.

Verifikasi status add-on Amazon EKS

  1. Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster.

  2. Pilih klaster Anda.

  3. Pilih tab Add-ons.

  4. Verifikasi bahwa add-on SageMaker HyperPod observabilitas terdaftar dan statusnya AKTIF.

  5. Jika status tidak AKTIF, salin pesan kesalahan dan kontak AWS Dukungan.

Verifikasi asosiasi Identitas Pod

  1. Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster.

  2. Pilih klaster Anda.

  3. Pada halaman detail cluster, pilih tab Access.

  4. Dalam tabel asosiasi Pod Identity, pilih asosiasi yang memiliki nilai properti berikut:

    • Ruang nama: hyperpod-observability

    • Akun layanan: hyperpod-observability-operator-otel-collector

    • Pengaya: amazon-sagemaker-hyperpod-observability

  5. Pastikan bahwa peran IAM yang dilampirkan ke asosiasi ini memiliki izin berikut.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:Wilayah AWS:account-ID:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:Wilayah AWS:account-ID:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:Wilayah AWS:account-ID:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }

Periksa Layanan Terkelola Amazon untuk pelambatan Prometheus

  1. Masuk ke AWS Management Console dan buka konsol Service Quotas di. https://console.aws.amazon.com/servicequotas/

  2. Di kotak Kuota terkelola, cari dan pilih Amazon Managed Service untuk Prometheus.

  3. Pilih seri Aktif per kuota ruang kerja.

  4. Di tab Kuota tingkat Sumber Daya, pilih Layanan Terkelola Amazon untuk ruang kerja Prometheus.

  5. Pastikan pemanfaatannya kurang dari kuota Anda saat ini.

  6. Jika Anda telah mencapai batas kuota, pilih ruang kerja Anda dengan memilih tombol radio di sebelah kiri, lalu pilih Permintaan peningkatan pada tingkat sumber daya.

Memecahkan masalah kegagalan instalasi add-on

Jika add-on observabilitas gagal dipasang, gunakan langkah-langkah berikut untuk mendiagnosis dan menyelesaikan masalah.

Periksa status pemeriksaan kesehatan

  1. Buka konsol Amazon EKS di https://console.aws.amazon.com/eks/rumah#/cluster.

  2. Pilih klaster Anda.

  3. Pilih tab Add-ons.

  4. Pilih add-on yang gagal.

  5. Tinjau bagian Masalah Kesehatan.

  6. Hubungi AWS Support dengan rincian masalah.

Tinjau log manajer

  1. Dapatkan pod manajer add-on:

    kubectl get pods -n hyperpod-observability | grep manager
  2. Periksa log:

    kubectl logs -n kube-system addon-manager-pod-name

Untuk masalah mendesak, hubungi AWS Dukungan.