Header laporan umum Ringkasan laporan Laporan terperinci

Rincian laporan dan rincian data

SageMaker HyperPodLaporan penggunaan menyediakan dua lensa berbeda untuk menganalisis konsumsi sumber daya komputasi: laporan ringkasan untuk alokasi biaya dan laporan terperinci untuk audit granular. Ringkasan laporan agregat penggunaan seluruh klaster menurut tim atau namespace, menyoroti tren dalam komputasi yang dialokasikan versus pinjaman di seluruh sumber daya GPU, CPU, dan Neuron Core. Laporan terperinci menelusuri tugas individu, mengekspos metrik seperti jendela eksekusi, status tugas, dan pemanfaatan kelas prioritas. Di bagian ini, kami memecah struktur laporan ini, memahami metrik utamanya, dan mendemonstrasikan bagaimana administrator dan tim keuangan dapat mereferensikan silang tren ringkasan dengan data tingkat tugas untuk memvalidasi akurasi atribusi biaya, menyelesaikan perbedaan, dan mengoptimalkan infrastruktur bersama.

Header laporan umum

Ringkasan dan laporan terperinci mencakup metadata berikut untuk mengontekstualisasikan data penggunaan:

ClusterName: Nama cluster EKS-orchestrated Hyperpod tempat sumber daya dikonsumsi.
Jenis: Kategori laporan (Summary Utilization ReportatauDetailed Utilization Report).
Tanggal Dihasilkan: Saat laporan dibuat (mis.,2025-04-18).
Rentang Tanggal (UTC): Jangka waktu yang tercakup (mis.,2025-04-16 to 2025-04-18).
Periode data hilang: Kesenjangan dalam pengumpulan data karena downtime cluster atau masalah pemantauan (misalnya,2025-04-16 00:00:00 to 2025-04-19 00:00:00).

Ringkasan laporan

Laporan ringkasan memberikan gambaran tingkat tinggi per hari tentang konsumsi sumber daya komputasi di seluruh teams/namespaces, dan jenis instans yang membedakan antara pemanfaatan yang dialokasikan (kuota cadangan) dan pinjaman (kumpulan pinjaman). Laporan ini ideal untuk pembuatan faktur, laporan atribusi biaya, atau perkiraan kapasitas.

Contoh: Laporan ringkasan mungkin menunjukkan bahwa Tim A menggunakan 200 jam GPU—170 dari kuota yang dialokasikan dan 30 jam pinjaman.

Berikut adalah rincian terstruktur dari kolom kunci dalam laporan ringkasan:

Tanggal: Tanggal penggunaan yang dilaporkan (mis.,2025-04-18).
Namespace: Namespace Kubernetes yang terkait dengan tim (misalnya,). hyperpod-ns-ml-team
Tim: The Ownning team/department (mis.,ml-team).
Jenis Instance: Instance komputasi yang digunakan (misalnya, ml.g5.4xlarge).
Total/Allocated/Borrowed Pemanfaatan (Jam): Rincian penggunaan GPU, CPU, atau Neuron Core berdasarkan kategori.

Di mana:
- Total pemanfaatan = Pemanfaatan yang dialokasikan + Pemanfaatan yang dipinjam
- Pemanfaatan yang dialokasikan adalah CPU GPU aktual, atau jam Neuron Core yang telah digunakan tim, dibatasi pada 100% dari kuota yang dialokasikan.
- Pemanfaatan yang dipinjam adalah jam GPU, CPU, atau Neuron Core aktual yang telah digunakan tim di luar kuota yang dialokasikan, diambil dari kumpulan cluster bersama berdasarkan aturan prioritas Tata Kelola Tugas dan ketersediaan sumber daya.

Contoh: 72 jam GPU total (48 dialokasikan, 24 dipinjam).

catatan

Hanya pemanfaatan total yang ditampilkan untuk ruang nama yang tidak dikelola oleh Tata Kelola Tugas.

Laporan terperinci

Laporan terperinci memberikan visibilitas tingkat forensik ke dalam penggunaan komputasi, memecah konsumsi sumber daya berdasarkan tugas, mengekspos metrik granular seperti jendela eksekusi tugas, status (misalnya, Berhasil, Gagal), dan penggunaan kelas prioritas. Laporan ini ideal untuk validasi perbedaan penagihan, atau memastikan kepatuhan terhadap kebijakan tata kelola.

Berikut adalah rincian terstruktur dari kolom kunci dalam laporan rinci:

Tanggal: Tanggal penggunaan yang dilaporkan (mis.,2025-04-18).
Periode Start/End: Exact Execution Window (UTC) untuk tugas tersebut. (misalnya,19:54:34)
Namespace: Namespace Kubernetes yang terkait dengan tim (misalnya,). hyperpod-ns-ml-team
Tim: The Ownning team/department (mis.,ml-team).
Tugas: Pengidentifikasi untuk job/pod (misalnya,pytorchjob-ml-pytorch-job-2p5zt-db686).
Instance: Instance komputasi yang digunakan (misalnya,ml.g5.4xlarge).
Status: Hasil tugas (Berhasil, Gagal, Dahului).
Pemanfaatan Total: Total konsumsi (jam dan jumlah instans) sumber daya GPU, CPU, atau Neuron Core.
Kelas Prioritas: Tingkat prioritas yang ditetapkan (mis., Pelatihan-prioritas).

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Melaporkan penggunaan komputasi

Menghasilkan laporan