Rincian laporan dan rincian data - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Rincian laporan dan rincian data

SageMaker HyperPodLaporan penggunaan menyediakan dua lensa berbeda untuk menganalisis konsumsi sumber daya komputasi: laporan ringkasan untuk alokasi biaya dan laporan terperinci untuk audit granular. Ringkasan laporan agregat penggunaan seluruh cluster menurut tim atau namespace, menyoroti tren dalam komputasi yang dialokasikan versus pinjaman di seluruh sumber daya GPU, CPU, dan Neuron Core. Laporan terperinci menelusuri tugas individual, mengekspos metrik seperti jendela eksekusi, status tugas, dan pemanfaatan kelas prioritas. Di bagian ini, kami memecah struktur laporan ini, memahami metrik utamanya, dan mendemonstrasikan bagaimana administrator dan tim keuangan dapat mereferensikan silang tren ringkasan dengan data tingkat tugas untuk memvalidasi akurasi atribusi biaya, menyelesaikan perbedaan, dan mengoptimalkan infrastruktur bersama.

Header laporan umum

Ringkasan dan laporan terperinci mencakup metadata berikut untuk mengontekstualisasikan data penggunaan:

  • ClusterName: Nama cluster Hyperpod yang diatur EKS tempat sumber daya dikonsumsi.

  • Jenis: Kategori laporan (Summary Utilization ReportatauDetailed Utilization Report).

  • Tanggal Dihasilkan: Saat laporan dibuat (mis.,2025-04-18).

  • Rentang Tanggal (UTC): Jangka waktu yang tercakup (mis.,2025-04-16 to 2025-04-18).

  • Periode data hilang: Kesenjangan dalam pengumpulan data karena downtime cluster atau masalah pemantauan (misalnya,2025-04-16 00:00:00 to 2025-04-19 00:00:00).

Ringkasan laporan

Laporan ringkasan memberikan gambaran tingkat tinggi per hari tentang konsumsi sumber daya komputasi di seluruh tim/ruang nama, dan jenis instance yang membedakan antara pemanfaatan yang dialokasikan (kuota cadangan) dan pinjaman (kumpulan pinjaman). Laporan ini ideal untuk pembuatan faktur, laporan atribusi biaya, atau perkiraan kapasitas.

Contoh: Laporan ringkasan mungkin menunjukkan bahwa Tim A menggunakan 200 jam GPU—170 dari kuota yang dialokasikan dan 30 jam pinjaman.

Berikut adalah rincian terstruktur dari kolom kunci dalam laporan ringkasan:

  • Tanggal: Tanggal penggunaan yang dilaporkan (mis.,2025-04-18).

  • Namespace: Namespace Kubernetes yang terkait dengan tim (misalnya,). hyperpod-ns-ml-team

  • Tim: The Ownning team/department (mis.,ml-team).

  • Jenis Instance: Instance komputasi yang digunakan (misalnya, ml.g5.4xlarge).

  • Total/Allocated/BorrowedPemanfaatan (Jam): Rincian penggunaan GPU, CPU, atau Neuron Core berdasarkan kategori.

    Di mana:

    • Total pemanfaatan = Pemanfaatan yang dialokasikan + Pemanfaatan yang dipinjam

    • Pemanfaatan yang dialokasikan adalah CPU GPU aktual, atau jam Neuron Core yang telah digunakan tim, dibatasi pada 100% dari kuota yang dialokasikan.

    • Pemanfaatan yang dipinjam adalah jam GPU, CPU, atau Neuron Core aktual yang telah digunakan tim di luar kuota yang dialokasikan, diambil dari kumpulan cluster bersama berdasarkan aturan prioritas Tata Kelola Tugas dan ketersediaan sumber daya.

Contoh: 72 jam GPU total (48 dialokasikan, 24 dipinjam).

catatan

Hanya pemanfaatan total yang ditampilkan untuk ruang nama yang tidak dikelola oleh Tata Kelola Tugas.

Laporan terperinci

Laporan terperinci memberikan visibilitas tingkat forensik ke dalam penggunaan komputasi, memecah konsumsi sumber daya berdasarkan tugas, mengekspos metrik granular seperti jendela eksekusi tugas, status (misalnya, Berhasil, Gagal), dan penggunaan kelas prioritas. Laporan ini ideal untuk validasi perbedaan penagihan, atau memastikan kepatuhan terhadap kebijakan tata kelola.

Berikut adalah rincian terstruktur dari kolom kunci dalam laporan rinci:

  • Tanggal: Tanggal penggunaan yang dilaporkan (mis.,2025-04-18).

  • Periode Start/End: Exact Execution Window (UTC) untuk tugas tersebut. (misalnya,19:54:34)

  • Namespace: Namespace Kubernetes yang terkait dengan tim (misalnya,). hyperpod-ns-ml-team

  • Tim: The Ownning team/department (mis.,ml-team).

  • Tugas: Pengenal untuk pekerjaan/pod (mis.,). pytorchjob-ml-pytorch-job-2p5zt-db686

  • Instance: Instance komputasi yang digunakan (misalnya,ml.g5.4xlarge).

  • Status: Hasil tugas (Berhasil, Gagal, Dahului).

  • Pemanfaatan Total: Total konsumsi (jam dan jumlah instans) sumber daya GPU, CPU, atau Neuron Core.

  • Kelas Prioritas: Tingkat prioritas yang ditetapkan (mis., Pelatihan-prioritas).