

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memecahkan masalah add-on observabilitas Amazon SageMaker HyperPod
<a name="hyperpod-observability-addon-troubleshooting"></a>

Gunakan panduan berikut untuk mengatasi masalah umum dengan add-on observabilitas Amazon SageMaker HyperPod (SageMaker HyperPod).

## Memecahkan masalah metrik yang hilang di Grafana Terkelola Amazon
<a name="troubleshooting-missing-metrics"></a>

Jika metrik tidak muncul di dasbor Grafana Terkelola Amazon, lakukan langkah-langkah berikut untuk mengidentifikasi dan menyelesaikan masalah.

### Verifikasi Layanan Terkelola Amazon untuk koneksi Grafana Terkelola Prometheus-Amazon
<a name="verify-amp-grafana-connection"></a>

1. Masuk ke konsol Grafana Terkelola Amazon.

1. Di panel kiri, pilih **Semua ruang kerja**.

1. Di tabel **Workspaces**, pilih ruang kerja Anda.

1. Di halaman detail ruang kerja, pilih tab **Sumber data**.

1. Verifikasi bahwa Layanan Terkelola Amazon untuk sumber data Prometheus ada.

1. Periksa pengaturan koneksi:
   + Konfirmasikan bahwa URL endpoint sudah benar.
   + Verifikasi bahwa otentikasi IAM dikonfigurasi dengan benar.
   + Pilih **Uji koneksi**. Verifikasi bahwa statusnya **adalah Sumber data berfungsi**.

### Verifikasi status add-on Amazon EKS
<a name="verify-eks-addon-status"></a>

1. Buka konsol Amazon EKS di [https://console.aws.amazon.com/eks/rumah\$1/cluster](https://console.aws.amazon.com/eks/home#/clusters).

1. Pilih klaster Anda.

1. Pilih tab **Add-ons**.

1. **Verifikasi bahwa add-on SageMaker HyperPod observabilitas terdaftar dan statusnya AKTIF.**

1. Jika statusnya tidak **AKTIF**, lihat[Memecahkan masalah kegagalan instalasi add-on](#troubleshooting-addon-installation-failures).

### Verifikasi asosiasi Identitas Pod
<a name="verify-pod-identity-association"></a>

1. Buka konsol Amazon EKS di [https://console.aws.amazon.com/eks/rumah\$1/cluster](https://console.aws.amazon.com/eks/home#/clusters).

1. Pilih klaster Anda.

1. Pada halaman detail cluster, pilih tab **Access**.

1. Dalam tabel **asosiasi Pod Identity**, pilih asosiasi yang memiliki nilai properti berikut:
   + **Ruang nama**: `hyperpod-observability`
   + **Akun layanan**: `hyperpod-observability-operator-otel-collector`
   + **Pengaya**: `amazon-sagemaker-hyperpod-observability`

1. Pastikan bahwa peran IAM yang dilampirkan ke asosiasi ini memiliki izin berikut.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "PrometheusAccess",
               "Effect": "Allow",
               "Action": "aps:RemoteWrite",
               "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID"
           },
           {
               "Sid": "CloudwatchLogsAccess",
               "Effect": "Allow",
               "Action": [
                   "logs:CreateLogGroup",
                   "logs:CreateLogStream",
                   "logs:DescribeLogGroups",
                   "logs:DescribeLogStreams",
                   "logs:PutLogEvents",
                   "logs:GetLogEvents",
                   "logs:FilterLogEvents",
                   "logs:GetLogRecord",
                   "logs:StartQuery",
                   "logs:StopQuery",
                   "logs:GetQueryResults"
               ],
               "Resource": [
                   "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*",
                   "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*"
               ]
           }
       ]
   }
   ```

------

1. Pastikan bahwa peran IAM yang melekat pada asosiasi ini memiliki kebijakan kepercayaan berikut. Verifikasi bahwa sumber ARN dan akun sumber sudah benar.

------
#### [ JSON ]

****  

   ```
   {
       "Version":"2012-10-17",		 	 	 
       "Statement": [
           {
               "Sid": "AllowEksAuthToAssumeRoleForPodIdentity",
               "Effect": "Allow",
               "Principal": {
                   "Service": "pods.eks.amazonaws.com"
               },
               "Action": [
                   "sts:AssumeRole",
                   "sts:TagSession"
               ],
               "Condition": {
                   "StringEquals": {
                       "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name",
                       "aws:SourceAccount": "111122223333"
                   }
               }
           }
       ]
   }
   ```

------

### Periksa Layanan Terkelola Amazon untuk pelambatan Prometheus
<a name="check-amp-throttling"></a>

1. Masuk ke Konsol Manajemen AWS dan buka konsol Service Quotas di. [https://console.aws.amazon.com/servicequotas/](https://console.aws.amazon.com/servicequotas/)

1. Di kotak **Kuota terkelola**, cari dan pilih Amazon Managed Service untuk Prometheus.

1. Pilih **seri Aktif per kuota ruang kerja**.

1. Di tab **Kuota tingkat Sumber Daya**, pilih Layanan Terkelola Amazon untuk ruang kerja Prometheus.

1. Pastikan pemanfaatannya kurang dari kuota Anda saat ini.

1. Jika Anda telah mencapai batas kuota, pilih ruang kerja Anda dengan memilih tombol radio di sebelah kiri, lalu pilih **Permintaan peningkatan pada tingkat sumber daya**.

### Verifikasi caching KV dan perutean cerdas diaktifkan
<a name="verify-caching-routing"></a>

Jika `KVCache Metrics` dasbor hilang, fitur tidak diaktifkan atau port tidak disebutkan di`modelMetrics`. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihat langkah 1 dan 3 di[Konfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja](sagemaker-hyperpod-model-deployment-deploy-ftm.md#sagemaker-hyperpod-model-deployment-deploy-ftm-cache-route). 

Jika `Intelligent Router Metrics` dasbor tidak ada, aktifkan fitur agar muncul. Untuk informasi selengkapnya tentang cara mengaktifkan ini, lihat[Konfigurasikan caching KV dan perutean cerdas untuk meningkatkan kinerja](sagemaker-hyperpod-model-deployment-deploy-ftm.md#sagemaker-hyperpod-model-deployment-deploy-ftm-cache-route). 

## Memecahkan masalah kegagalan instalasi add-on
<a name="troubleshooting-addon-installation-failures"></a>

Jika add-on observabilitas gagal dipasang, gunakan langkah-langkah berikut untuk mendiagnosis dan menyelesaikan masalah.

### Periksa status pemeriksaan kesehatan
<a name="check-health-probe-status"></a>

1. Buka konsol Amazon EKS di [https://console.aws.amazon.com/eks/rumah\$1/cluster](https://console.aws.amazon.com/eks/home#/clusters).

1. Pilih klaster Anda.

1. Pilih tab **Add-ons**.

1. Pilih add-on yang gagal.

1. Tinjau bagian **Masalah Kesehatan**.

1. Jika masalah kesehatan terkait dengan kredensil atau identitas pod, lihat. [Verifikasi asosiasi Identitas Pod](#verify-pod-identity-association) Pastikan juga bahwa add-on agen identitas pod berjalan di cluster.

1. Periksa kesalahan di log manajer. Untuk petunjuk, lihat [Tinjau log manajer](#review-manager-logs).

1. Hubungi AWS Support dengan rincian masalah.

### Tinjau log manajer
<a name="review-manager-logs"></a>

1. Dapatkan pod manajer add-on:

   ```
   kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager
   ```

1. Untuk masalah mendesak, hubungi Dukungan.

## Tinjau semua pod observabilitas
<a name="review-all-observability-pods"></a>

Semua pod yang dibuat oleh add-on SageMaker HyperPod observability ada di namespace. `hyperpod-observability` Untuk mendapatkan status pod ini, jalankan perintah berikut.

```
kubectl get pods -n hyperpod-observability
```

Cari pod yang statusnya salah satu `pending` atau`crashloopbackoff`. Jalankan perintah berikut untuk mendapatkan log dari pod yang tertunda atau gagal ini.

```
kubectl logs -n hyperpod-observability pod-name
```

Jika Anda tidak menemukan kesalahan dalam log, jalankan perintah berikut untuk mendeskripsikan pod dan mencari kesalahan.

```
kubectl describe -n hyperpod-observability pod pod-name
```

Untuk mendapatkan lebih banyak konteks, jalankan dua perintah berikut untuk menjelaskan penerapan dan daemonset untuk pod ini.

```
kubectl describe -n hyperpod-observability deployment deployment-name
```

```
kubectl describe -n hyperpod-observability daemonset daemonset-name
```

## Memecahkan masalah pod yang macet dalam status tertunda
<a name="pods-stuck-in-pending"></a>

Jika Anda melihat bahwa ada pod yang terjebak dalam `pending` status, pastikan bahwa node cukup besar untuk muat di semua pod. Untuk memverifikasi bahwa itu, lakukan langkah-langkah berikut.

1. Buka konsol Amazon EKS di [https://console.aws.amazon.com/eks/rumah\$1/cluster](https://console.aws.amazon.com/eks/home#/clusters).

1. Pilih cluster Anda.

1. Pilih tab **Compute** cluster.

1. Pilih node dengan tipe instance terkecil.

1. Di bagian alokasi kapasitas, cari pod yang tersedia.

1. Jika tidak ada pod yang tersedia, maka Anda memerlukan jenis instance yang lebih besar.

Untuk masalah mendesak, hubungi AWS Dukungan.

## Memecahkan masalah pengamatan pada Grup Instans Terbatas
<a name="troubleshooting-rig-observability"></a>

Gunakan panduan berikut untuk menyelesaikan masalah khusus untuk klaster dengan Grup Instance Terbatas.

### Pod observabilitas tidak dimulai pada node terbatas
<a name="troubleshooting-rig-pods-not-starting"></a>

Jika pod observabilitas tidak dimulai pada node terbatas, periksa status dan peristiwa pod:

```
kubectl get pods -n hyperpod-observability -o wide
kubectl describe pod pod-name -n hyperpod-observability
```

Penyebab umum meliputi:
+ **Kegagalan penarikan gambar:** Peristiwa pod mungkin menunjukkan kesalahan penarikan gambar jika gambar kontainer observabilitas belum diizinkan terdaftar pada node yang dibatasi. Pastikan Anda menjalankan versi terbaru dari add-on observabilitas. Jika masalah berlanjut setelah peningkatan, hubungi. Dukungan
+ **Toleransi taint:** Verifikasi bahwa spesifikasi pod menyertakan toleransi yang diperlukan untuk node yang dibatasi. Add-on yang dimulai dari versi `v1.0.5-eksbuild.1` secara otomatis menambahkan toleransi ini ketika dukungan RIG diaktifkan. Jika Anda menggunakan versi yang lebih lama, silakan tingkatkan ke versi terbaru.

### Melihat log untuk pod pada node terbatas
<a name="troubleshooting-rig-viewing-logs"></a>

`kubectl logs`Perintah ini tidak berfungsi untuk pod yang berjalan pada node terbatas. Ini adalah batasan yang diharapkan karena jalur komunikasi yang diperlukan untuk streaming log tidak tersedia pada node terbatas.

Untuk melihat log dari node terbatas, gunakan dasbor **Cluster Logs** di Amazon Managed Grafana, yang menanyakan Log secara langsung. CloudWatch Anda dapat memfilter berdasarkan ID instans, aliran log, tingkat log, dan pencarian teks gratis untuk menemukan entri log yang relevan.

### Kegagalan resolusi DNS dalam cluster dengan node standar dan terbatas
<a name="troubleshooting-rig-dns-resolution"></a>

Dalam klaster hibrida (cluster dengan grup instans standar dan terbatas), pod pada node standar mungkin mengalami batas waktu resolusi DNS saat mencoba mencapai titik akhir layanan seperti Amazon Managed AWS Service untuk Prometheus atau. CloudWatch

**Penyebab:** `kube-dns` Layanan ini memiliki titik akhir dari pod CoreDNS standar dan pod CoreDNS RIG. Pod node standar tidak dapat mencapai titik akhir RIG CoreDNS karena isolasi jaringan. Saat `kube-proxy` load-menyeimbangkan permintaan DNS dari pod node standar ke titik akhir RIG CoreDNS, permintaan akan habis waktu.

**Resolusi:** `internalTrafficPolicy: Local` Atur `kube-dns` layanan sehingga pod hanya mencapai CoreDNS di node lokalnya:

```
kubectl patch svc kube-dns -n kube-system -p '{"spec":{"internalTrafficPolicy":"Local"}}'
```

Setelah menerapkan patch ini, restart pod observabilitas yang terpengaruh:

```
kubectl delete pods -n hyperpod-observability -l app.kubernetes.io/name=hyperpod-node-collector
```

### Metrik dari node terbatas yang tidak mencapai Amazon Managed Service untuk Prometheus
<a name="troubleshooting-rig-metrics-not-reaching-amp"></a>

Jika metrik dari node terbatas tidak muncul di Amazon Managed Service untuk ruang kerja Prometheus:

1. **Verifikasi izin peran eksekusi.** Pastikan bahwa peran eksekusi untuk Grup Instance Terbatas memiliki `aps:RemoteWrite` izin untuk ruang kerja Prometheus Anda. Untuk informasi selengkapnya, lihat [Prasyarat tambahan untuk Grup Instans Terbatas](hyperpod-observability-addon-setup.md#hyperpod-observability-addon-rig-prerequisites).

1. **Periksa status pod pengumpul simpul.** Jalankan perintah berikut dan verifikasi bahwa pod pengumpul node berjalan pada node terbatas:

   ```
   kubectl get pods -n hyperpod-observability | grep node-collector
   ```

1. **Periksa penyebaran kolektor pusat.** Dalam cluster dengan node terbatas, add-on menyebarkan satu kolektor pusat per batas jaringan. Verifikasi bahwa kolektor pusat ada untuk setiap batas:

   ```
   kubectl get deployments -n hyperpod-observability | grep central-collector
   ```

1. **Periksa kejadian pod untuk kesalahan.** Gunakan `kubectl describe` pada pod kolektor untuk mencari peristiwa kesalahan:

   ```
   kubectl describe pod collector-pod-name -n hyperpod-observability
   ```

Jika masalah berlanjut setelah memverifikasi hal di atas, hubungi Dukungan.

### Verifikasi Identitas Pod tidak berlaku untuk node grup instans terbatas
<a name="troubleshooting-rig-pod-identity"></a>

Langkah-langkah [Verifikasi asosiasi Identitas Pod](#verify-pod-identity-association) pemecahan masalah hanya berlaku untuk node standar. Pada node terbatas, add-on menggunakan peran eksekusi grup instance cluster untuk AWS otentikasi, bukan Amazon EKS Pod Identity. Jika metrik hilang dari node terbatas, verifikasi izin peran eksekusi, bukan asosiasi Pod Identity.

### Fluent Bit tidak berjalan pada node terbatas
<a name="troubleshooting-rig-fluent-bit"></a>

Ini adalah perilaku yang diharapkan. Fluent Bit sengaja tidak digunakan pada node terbatas. Log dari node terbatas dipublikasikan ke CloudWatch melalui SageMaker HyperPod platform secara independen dari add-on observabilitas. Gunakan dasbor **Cluster Logs** di Amazon Managed Grafana untuk melihat log ini.