Observabilitas cluster dan tugas - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Observabilitas cluster dan tugas

Ada dua opsi untuk memantau SageMaker HyperPod cluster:

Add-on SageMaker HyperPod observabilitas — SageMaker HyperPod menyediakan out-of-the-box dasbor komprehensif yang memberi Anda wawasan tentang tugas pengembangan model dasar (FM) dan sumber daya cluster. Solusi observabilitas terpadu ini secara otomatis menerbitkan metrik utama ke Layanan Terkelola Amazon untuk Prometheus dan menampilkannya di dasbor Grafana Terkelola Amazon. Dasbor dioptimalkan secara khusus untuk pengembangan FM dengan cakupan mendalam tentang kesehatan perangkat keras, pemanfaatan sumber daya, dan kinerja tingkat tugas. Dengan add-on ini, Anda dapat mengkonsolidasikan data kesehatan dan kinerja dari NVIDIA DCGM, eksportir node Kubernetes tingkat instans, Adaptor Kain Elastis, sistem file terintegrasi, Kubernetes, Kueue, dan operator tugas. APIs SageMaker HyperPod

Amazon CloudWatch Insights —Amazon CloudWatch Insights mengumpulkan metrik untuk sumber daya komputasi, seperti CPU, memori, disk, dan jaringan. Wawasan Kontainer juga akan menyediakan informasi diagnostik, seperti kegagalan mengulang kembali kontainer, untuk membantu Anda melakukan isolasi atas masalah dan mengatasi masalah itu dengan cepat. Anda juga dapat menyetel CloudWatch alarm pada metrik yang dikumpulkan Container Insights.