Observabilitas cluster - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Observabilitas cluster

Untuk mendapatkan visibilitas pemanfaatan sumber daya klaster, siapkan Amazon CloudWatch Container Insights dan Amazon Managed Grafana untuk mengekstrak metrik dan memvisualisasikannya di berbagai dasbor.

CloudWatch Wawasan Kontainer Amazon

Gunakan Amazon CloudWatch Container Insights untuk mengumpulkan, menggabungkan, dan meringkas metrik dan log dari aplikasi container dan layanan mikro di klaster EKS yang terkait dengan cluster. HyperPod

Amazon CloudWatch Insights mengumpulkan metrik untuk sumber daya komputasi, seperti CPU, memori, disk, dan jaringan. Wawasan Kontainer juga akan menyediakan informasi diagnostik, seperti kegagalan mengulang kembali kontainer, untuk membantu Anda melakukan isolasi atas masalah dan mengatasi masalah itu dengan cepat. Anda juga dapat menyetel CloudWatch alarm pada metrik yang dikumpulkan Container Insights.

Untuk menemukan daftar metrik lengkap, lihat metrik Amazon EKS dan Kubernetes Container Insights di Panduan Pengguna Amazon EKS.

Instal CloudWatch Wawasan Kontainer

Pengguna admin klaster harus menyiapkan CloudWatch Wawasan Kontainer mengikuti petunjuk di Instal CloudWatch agen dengan menggunakan add-on Amazon CloudWatch Observability EKS atau bagan Helm di Panduan Pengguna. CloudWatch Untuk informasi selengkapnya tentang add-on Amazon EKS, lihat juga Menginstal add-on Amazon CloudWatch Observability EKS di Panduan Pengguna Amazon EKS.

Setelah penginstalan selesai, verifikasi bahwa add-on CloudWatch Observability terlihat di tab add-on cluster EKS. Mungkin perlu waktu sekitar beberapa menit sampai dasbor dimuat.

catatan

SageMaker HyperPod membutuhkan CloudWatch Insight v2.0.1-eksbuild.1 atau yang lebih baru.

CloudWatch Observability service card showing status, version, and IAM role information.

Akses CloudWatch dasbor wawasan kontainer

  1. Buka CloudWatch konsol di https://console.aws.amazon.com/cloudwatch/.

  2. Pilih Insights, lalu pilih Container Insights.

  3. Pilih kluster EKS yang disiapkan dengan HyperPod cluster yang Anda gunakan.

  4. Lihat metrik Pod/Cluster level.

Performance monitoring dashboard for EKS klaster showing node status, resource utilization, and pod metrics.

Akses CloudWatch log wawasan wadah

  1. Buka CloudWatch konsol di https://console.aws.amazon.com/cloudwatch/.

  2. Pilih Log, lalu pilih Grup log.

Jika HyperPod kluster terintegrasi dengan Amazon CloudWatch Container Insights, Anda dapat mengakses grup log yang relevan dalam format berikut:. /aws/containerinsights /<eks-cluster-name>/* Dalam grup log ini, Anda dapat menemukan dan menjelajahi berbagai jenis log seperti log Kinerja, log Host, log Aplikasi, dan log bidang data.

Siapkan ruang kerja Grafana yang Dikelola Amazon

Anda dapat berintegrasi SageMaker HyperPod dengan Amazon Managed Grafana dan Amazon Managed Service untuk Prometheus untuk mendapatkan observabilitas klaster yang komprehensif dan memvisualisasikan di berbagai dasbor Grafana: dasbor pemantauan klaster Kubernetes, dasbor eksportir NVIDIA DCGM, dan dasbor metrik for Lustre, dan dasbor metrik EFA. FSx