Observabilitas untuk SageMaker HyperPod cluster Amazon yang diatur oleh Amazon EKS - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Observabilitas untuk SageMaker HyperPod cluster Amazon yang diatur oleh Amazon EKS

Untuk mencapai observabilitas komprehensif ke dalam sumber daya klaster Amazon SageMaker HyperPod (SageMaker HyperPod) dan komponen perangkat lunak, integrasikan cluster dengan Amazon CloudWatch Container Insights, AmazonManaged Service for Prometheus, dan Amazon Managed Grafana. Alat-alat ini memberikan visibilitas ke kesehatan klaster, metrik kinerja, dan pemanfaatan sumber daya.

Integrasi dengan Amazon Managed Service untuk Prometheus memungkinkan ekspor metrik yang terkait dengan sumber daya klaster HyperPod Anda, memberikan wawasan tentang kinerja, pemanfaatan, dan kesehatannya. Integrasi dengan Amazon Managed Grafana memungkinkan visualisasi metrik ini melalui berbagai dasbor Grafana yang menawarkan antarmuka intuitif untuk memantau dan menganalisis perilaku cluster. Dengan memanfaatkan layanan ini, Anda mendapatkan tampilan HyperPod klaster yang terpusat dan terpadu, memfasilitasi pemantauan proaktif, pemecahan masalah, dan optimalisasi beban kerja pelatihan terdistribusi Anda.

catatan

Sementara CloudWatch, Amazon Managed Service untuk Prometheus, dan Amazon Managed Grafana fokus pada metrik operasional (misalnya, kesehatan sistem, kinerja pekerjaan pelatihan SageMaker HyperPod ), Laporan Penggunaan melengkapi Tata Kelola Tugas untuk memberikan wawasan akuntabilitas keuangan dan sumber daya. Laporan-laporan ini melacak:

  • Pemanfaatan komputasi (GPU/CPU/Neuron Core hours) across namespaces/teams

  • Atribusi biaya untuk sumber daya yang dialokasikan vs. pinjaman

  • Tren historis (hingga 180 hari) untuk audit dan optimasi

Untuk informasi selengkapnya tentang menyiapkan dan membuat laporan penggunaan, lihat Melaporkan Penggunaan Komputasi di HyperPod.

Tip

Untuk menemukan contoh dan solusi praktis, lihat juga bagian Observability di Amazon EKS Support in SageMaker HyperPod workshop.

Lanjutkan ke topik berikut untuk menyiapkan observabilitas SageMaker HyperPod cluster.