

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Metrik Amazon SageMaker AI di Amazon CloudWatch
<a name="monitoring-cloudwatch"></a>

Anda dapat memantau Amazon SageMaker AI menggunakan Amazon CloudWatch, yang mengumpulkan data mentah dan memprosesnya menjadi metrik yang dapat dibaca, mendekati waktu nyata. Statistik ini disimpan selama 15 bulan. Dengan mereka, Anda dapat mengakses informasi historis dan mendapatkan perspektif yang lebih baik tentang kinerja aplikasi atau layanan web Anda. Namun, CloudWatch konsol Amazon membatasi pencarian ke metrik yang diperbarui dalam 2 minggu terakhir. Batasan ini memastikan bahwa pekerjaan terbaru ditampilkan di namespace Anda. 

Untuk membuat grafik metrik tanpa menggunakan pencarian, tentukan nama persisnya di tampilan sumber. Anda juga dapat mengatur alarm yang memperhatikan ambang batas tertentu dan mengirim notifikasi atau mengambil tindakan saat ambang batas tersebut terpenuhi. Untuk informasi selengkapnya, lihat [Panduan CloudWatch Pengguna Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/).



**Topics**
+ [SageMaker Metrik titik akhir AI](#cloudwatch-metrics-endpoints)
+ [SageMaker Metrik pemanggilan titik akhir AI](#cloudwatch-metrics-endpoint-invocation)
+ [SageMaker Metrik komponen inferensi AI](#cloudwatch-metrics-inference-component)
+ [SageMaker Metrik titik akhir multi-model AI](#cloudwatch-metrics-multimodel-endpoints)
+ [SageMaker Metrik pekerjaan AI](#cloudwatch-metrics-jobs)
+ [SageMaker Metrik pekerjaan Inference Recommender](#cloudwatch-metrics-inference-recommender)
+ [SageMaker Metrik Ground Truth](#cloudwatch-metrics-ground-truth)
+ [Metrik Toko SageMaker Fitur Amazon](#cloudwatch-metrics-feature-store)
+ [SageMaker metrik saluran pipa](#cloudwatch-metrics-pipelines)

## SageMaker Metrik titik akhir AI
<a name="cloudwatch-metrics-endpoints"></a>

`/aws/sagemaker/Endpoints`Namespace menyertakan metrik berikut untuk instance titik akhir.

Metrik tersedia pada frekuensi 1 menit.

**catatan**  
Amazon CloudWatch mendukung [metrik kustom resolusi tinggi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) dan resolusi terbaiknya adalah 1 detik. Namun, semakin halus resolusinya, semakin pendek umur metrik. CloudWatch Untuk resolusi frekuensi 1 detik, CloudWatch metrik tersedia selama 3 jam. Untuk informasi selengkapnya tentang resolusi dan umur CloudWatch metrik, lihat [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)di Referensi *Amazon CloudWatch * API. 


**Metrik titik akhir**  

| Metrik | Deskripsi | 
| --- | --- | 
| CPUReservation |  Jumlah yang CPUs dicadangkan oleh kontainer pada sebuah instance. Metrik ini disediakan hanya untuk titik akhir yang menampung komponen inferensi aktif. Nilai berkisar antara 0% — 100%. Dalam pengaturan untuk komponen inferensi, Anda mengatur reservasi CPU dengan `NumberOfCpuCoresRequired` parameter. Misalnya, jika ada 4 CPUs, dan 2 dicadangkan, `CPUReservation` metriknya adalah 50%.  | 
| CPUUtilization |  Jumlah dari setiap pemanfaatan inti CPU individu. Pemanfaatan CPU dari setiap rentang inti adalah 0-100. Misalnya, jika ada empat CPUs, `CPUUtilization` kisarannya adalah 0% - 400%. Untuk varian endpoint, nilainya adalah jumlah dari pemanfaatan CPU dari wadah primer dan tambahan pada instance. Unit: Persen  | 
| CPUUtilizationNormalized |  Jumlah normalisasi pemanfaatan masing-masing inti CPU individu. Metrik ini disediakan hanya untuk titik akhir yang menampung komponen inferensi aktif. Nilai berkisar antara 0% — 100%. Misalnya, jika ada empat CPUs, dan `CPUUtilization` metriknya 200%, maka `CPUUtilizationNormalized` metriknya adalah 50%.  | 
| DiskUtilization | Persentase ruang disk yang digunakan oleh kontainer pada sebuah instance. Kisaran nilai ini adalah 0% - 100%.Untuk varian endpoint, nilainya adalah jumlah dari pemanfaatan ruang disk dari wadah primer dan tambahan pada instance.Unit: Persen | 
| GPUMemoryUtilization |  Persentase memori GPU yang digunakan oleh kontainer pada sebuah instance. Kisaran nilai adalah 0-100 dan dikalikan dengan jumlah. GPUs Misalnya, jika ada empat GPUs, `GPUMemoryUtilization` kisarannya adalah 0% - 400%. Untuk varian titik akhir, nilainya adalah jumlah dari pemanfaatan memori GPU dari wadah primer dan tambahan pada instance. Unit: Persen  | 
| GPUMemoryUtilizationNormalized |  Persentase memori GPU yang dinormalisasi yang digunakan oleh kontainer pada sebuah instance. Metrik ini disediakan hanya untuk titik akhir yang menampung komponen inferensi aktif. Nilai berkisar antara 0% — 100%. Misalnya, jika ada empat GPUs, dan `GPUMemoryUtilization` metriknya 200%, maka `GPUMemoryUtilizationNormalized` metriknya adalah 50%.  | 
| GPUReservation |  Jumlah yang GPUs dicadangkan oleh kontainer pada sebuah instance. Metrik ini disediakan hanya untuk titik akhir yang menampung komponen inferensi aktif. Nilai berkisar antara 0% — 100%. Dalam pengaturan untuk komponen inferensi, Anda mengatur reservasi GPU dengan. `NumberOfAcceleratorDevicesRequired` Misalnya, jika ada 4 GPUs dan 2 yang dicadangkan, `GPUReservation` metriknya adalah 50%.   | 
| GPUUtilization |  Persentase unit GPU yang digunakan oleh kontainer pada sebuah instance. Nilai dapat berkisar antara 0-100 dan dikalikan dengan jumlah. GPUs Misalnya, jika ada empat GPUs, `GPUUtilization` kisarannya adalah 0% - 400%. Untuk varian endpoint, nilainya adalah jumlah dari pemanfaatan GPU dari wadah primer dan tambahan pada instance. Unit: Persen  | 
| GPUUtilizationNormalized |  Persentase unit GPU yang dinormalisasi yang digunakan oleh kontainer pada sebuah instance. Metrik ini disediakan hanya untuk titik akhir yang menampung komponen inferensi aktif. Nilai berkisar antara 0% — 100%. Misalnya, jika ada empat GPUs, dan `GPUUtilization` metriknya 200%, maka `GPUUtilizationNormalized` metriknya adalah 50%.   | 
| MemoryReservation |  Jumlah memori yang dicadangkan oleh kontainer pada sebuah instance. Metrik ini disediakan hanya untuk titik akhir yang menampung komponen inferensi aktif. Nilai berkisar antara 0% — 100%. Dalam pengaturan untuk komponen inferensi, Anda mengatur reservasi memori dengan `MinMemoryRequiredInMb` parameter. Misalnya, jika instance 32 GiB mencadangkan 1024 MB, `MemoryReservation` metriknya akan menjadi 3,125%.  | 
| MemoryUtilization |  Persentase memori yang digunakan oleh kontainer pada sebuah instance. Kisaran nilai ini adalah 0% - 100%. Untuk varian titik akhir, nilainya adalah jumlah dari pemanfaatan memori wadah primer dan tambahan pada instance. Unit: Persen  | 


**Dimensi untuk metrik titik akhir**  

| Dimensi | Deskripsi | 
| --- | --- | 
| EndpointName, VariantName |  Memfilter metrik titik akhir untuk titik `ProductionVariant` akhir dan varian yang ditentukan.  | 

## SageMaker Metrik pemanggilan titik akhir AI
<a name="cloudwatch-metrics-endpoint-invocation"></a>

`AWS/SageMaker`Namespace menyertakan metrik permintaan berikut dari panggilan ke. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html)

Metrik tersedia pada frekuensi 1 menit.

Ilustrasi berikut menunjukkan bagaimana titik akhir SageMaker AI berinteraksi dengan Amazon SageMaker Runtime API. Waktu keseluruhan antara mengirim permintaan ke titik akhir dan menerima respons tergantung pada tiga komponen berikut.
+ Latensi jaringan — waktu yang dibutuhkan antara membuat permintaan dan menerima respons kembali dari SageMaker Runtime Runtime API.
+ Latensi overhead — waktu yang diperlukan untuk mengangkut permintaan ke container model dari dan mengangkut respons kembali ke SageMaker Runtime Runtime API.
+ Latensi model — waktu yang dibutuhkan wadah model untuk memproses permintaan dan mengembalikan respons.

![\[\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/cloudwatch-latency-types.png)


Untuk informasi selengkapnya tentang latensi total, lihat [Praktik terbaik untuk pengujian beban titik akhir inferensi real-time Amazon SageMaker AI](https://aws.amazon.com/blogs/machine-learning/best-practices-for-load-testing-amazon-sagemaker-real-time-inference-endpoints/). Untuk informasi tentang berapa lama CloudWatch metrik dipertahankan, lihat [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)di Referensi *Amazon CloudWatch API*.


**Metrik pemanggilan titik akhir**  

| Metrik | Deskripsi | 
| --- | --- | 
| ConcurrentRequestsPerCopy |  Jumlah permintaan bersamaan yang diterima oleh komponen inferensi, dinormalisasi oleh setiap salinan komponen inferensi. Statistik yang valid: Min, Max  | 
| ConcurrentRequestsPerModel |  Jumlah permintaan bersamaan yang diterima oleh model. Statistik yang valid: Min, Max  | 
| Invocation4XXErrors |  Jumlah `InvokeEndpoint` permintaan di mana model mengembalikan kode respons HTTP 4xx. Untuk setiap respons 4xx, 1 dikirim; jika tidak, 0 dikirim. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah  | 
| Invocation5XXErrors |  Jumlah `InvokeEndpoint` permintaan di mana model mengembalikan kode respons HTTP 5xx. Untuk setiap respons 5xx, 1 dikirim; jika tidak, 0 dikirim. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah  | 
| InvocationModelErrors |  Jumlah permintaan pemanggilan model yang tidak menghasilkan respons HTTP 2XX. Ini termasuk kode status 4XX/5XX, kesalahan soket tingkat rendah, respons HTTP yang salah bentuk, dan batas waktu permintaan. Untuk setiap respons kesalahan, 1 dikirim; jika tidak, 0 dikirim. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah  | 
| Invocations |  Jumlah `InvokeEndpoint` permintaan yang dikirim ke titik akhir model.  Untuk mendapatkan jumlah total permintaan yang dikirim ke titik akhir model, gunakan statistik Jumlah. Satuan: Tidak ada Statistik yang valid: Jumlah  | 
| InvocationsPerCopy |  Jumlah pemanggilan dinormalisasi oleh setiap salinan komponen inferensi. Statistik yang valid: Jumlah  | 
| InvocationsPerInstance |  Jumlah pemanggilan yang dikirim ke model, dinormalisasi oleh `InstanceCount` masing-masing ProductionVariant. 1/ `numberOfInstances` dikirim sebagai nilai pada setiap permintaan. `numberOfInstances`adalah jumlah instance aktif untuk di ProductionVariant belakang titik akhir pada saat permintaan. Satuan: Tidak ada Statistik yang valid: Jumlah  | 
| ModelLatency |  Interval waktu yang dibutuhkan oleh model untuk menanggapi permintaan SageMaker Runtime API. Interval ini mencakup waktu komunikasi lokal yang diambil untuk mengirim permintaan dan untuk mengambil respons dari wadah model. Ini juga termasuk waktu yang dibutuhkan untuk menyelesaikan inferensi dalam wadah. Unit: Mikrodetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel, Persentil  | 
| ModelSetupTime |  Waktu yang dibutuhkan untuk meluncurkan sumber daya komputasi baru untuk titik akhir tanpa server. Waktu dapat bervariasi tergantung pada ukuran model, berapa lama waktu yang dibutuhkan untuk mengunduh model, dan waktu start-up wadah. Unit: Mikrodetik Statistik yang valid: Rata-rata, Min, Maks, Jumlah Sampel, Persentil  | 
| OverheadLatency |  Interval waktu ditambahkan ke waktu yang dibutuhkan untuk menanggapi permintaan klien dengan overhead SageMaker AI. Interval ini diukur dari waktu SageMaker AI menerima permintaan hingga mengembalikan respons ke klien, dikurangi`ModelLatency`. Latensi overhead dapat bervariasi tergantung pada beberapa faktor, termasuk ukuran payload permintaan dan respons, frekuensi permintaan, dan permintaan authentication/authorization . Unit: Mikrodetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel  | 
|  MidStreamErrors  |  Jumlah kesalahan yang terjadi selama respon streaming setelah respon awal telah dikirim ke pelanggan.  Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah  | 
|  FirstChunkLatency  |  Waktu berlalu dari saat permintaan tiba di titik akhir SageMaker AI hingga bagian pertama dari respons dikirim ke pelanggan. Metrik ini berlaku untuk permintaan inferensi streaming dua arah. Unit: Mikrodetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel, Persentil  | 
|  FirstChunkModelLatency  |  Waktu yang dibutuhkan oleh wadah model untuk memproses permintaan dan mengembalikan potongan pertama dari respons. Ini diukur dari saat permintaan dikirim ke wadah model hingga byte pertama diterima dari model. Metrik ini berlaku untuk permintaan inferensi streaming dua arah. Unit: Mikrodetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel, Persentil  | 
|  FirstChunkOverheadLatency  |  Latensi overhead untuk potongan pertama, tidak termasuk waktu pemrosesan model. Ini dihitung sebagai `FirstChunkLatency` minus`FirstChunkModelLatency`, mewakili waktu yang dihabiskan dalam operasi routing, preprocessing, dan postprocessing dalam SageMaker platform AI. Latensi overhead dapat bervariasi tergantung pada beberapa faktor, termasuk frekuensi permintaan, beban, dan authentication/authorization permintaan. Metrik ini berlaku untuk permintaan inferensi streaming dua arah. Unit: Mikrodetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel, Persentil  | 


**Dimensi untuk metrik pemanggilan titik akhir**  

| Dimensi | Deskripsi | 
| --- | --- | 
| EndpointName, VariantName |  Memfilter metrik pemanggilan titik akhir untuk titik akhir dan `ProductionVariant` varian yang ditentukan.  | 
| InferenceComponentName |  Filter metrik pemanggilan komponen inferensi.  | 

## SageMaker Metrik komponen inferensi AI
<a name="cloudwatch-metrics-inference-component"></a>

`/aws/sagemaker/InferenceComponents`Namespace menyertakan metrik berikut dari panggilan ke titik akhir yang [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html)menghosting komponen inferensi.

Metrik tersedia pada frekuensi 1 menit.


**Metrik komponen inferensi**  

| Metrik | Deskripsi | 
| --- | --- | 
| CPUUtilizationNormalized |  Nilai `CPUUtilizationNormalized` metrik yang dilaporkan oleh setiap salinan komponen inferensi. Nilai berkisar antara 0% — 100%. Jika Anda menyetel `NumberOfCpuCoresRequired` parameter dalam pengaturan untuk salinan komponen inferensi, metrik menyajikan pemanfaatan selama reservasi. Jika tidak, metrik menyajikan pemanfaatan di atas batas.  | 
| GPUMemoryUtilizationNormalized |  Nilai `GPUMemoryUtilizationNormalized` metrik yang dilaporkan oleh setiap salinan komponen inferensi.  | 
| GPUUtilizationNormalized |  Nilai `GPUUtilizationNormalized` metrik yang dilaporkan oleh setiap salinan komponen inferensi. Jika Anda menyetel `NumberOfAcceleratorDevicesRequired` parameter dalam pengaturan untuk salinan komponen inferensi, metrik menyajikan pemanfaatan selama reservasi. Jika tidak, metrik menyajikan pemanfaatan di atas batas.  | 
| MemoryUtilizationNormalized |  Nilai yang `MemoryUtilizationNormalized` dilaporkan oleh setiap salinan komponen inferensi. Jika Anda menyetel `MinMemoryRequiredInMb` parameter dalam pengaturan untuk salinan komponen inferensi, metrik menyajikan pemanfaatan selama reservasi. Jika tidak, metrik menyajikan pemanfaatan di atas batas.  | 


**Dimensi untuk metrik komponen inferensi**  

| Dimensi | Deskripsi | 
| --- | --- | 
| InferenceComponentName |  Filter metrik komponen inferensi.  | 

## SageMaker Metrik titik akhir multi-model AI
<a name="cloudwatch-metrics-multimodel-endpoints"></a>

`AWS/SageMaker`Namespace menyertakan metrik pemuatan model berikut dari panggilan ke. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html)

Metrik tersedia pada frekuensi 1 menit.

Untuk informasi tentang berapa lama CloudWatch metrik dipertahankan, lihat [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)di Referensi *Amazon CloudWatch API*.


**Metrik pemuatan model titik akhir multi-model**  

| Metrik | Deskripsi | 
| --- | --- | 
| ModelLoadingWaitTime  |  Interval waktu permintaan pemanggilan telah menunggu model target diunduh, dimuat, atau keduanya untuk menjalankan inferensi.  Unit: Mikrodetik  Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel   | 
| ModelUnloadingTime  |  Interval waktu yang diperlukan untuk membongkar model melalui panggilan `UnloadModel` API container.  Unit: Mikrodetik  Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel   | 
| ModelDownloadingTime |  Interval waktu yang dibutuhkan untuk mengunduh model dari Amazon Simple Storage Service (Amazon S3). Unit: Mikrodetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel   | 
| ModelLoadingTime  |  Interval waktu yang diperlukan untuk memuat model melalui panggilan `LoadModel` API container. Unit: Mikrodetik  Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel   | 
| ModelCacheHit  |  Jumlah `InvokeEndpoint` permintaan yang dikirim ke titik akhir multi-model yang modelnya sudah dimuat. Statistik rata-rata menunjukkan rasio permintaan yang modelnya sudah dimuat. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah, Jumlah Sampel  | 


**Dimensi untuk metrik pemuatan model titik akhir multi-model**  

| Dimensi | Deskripsi | 
| --- | --- | 
| EndpointName, VariantName |  Memfilter metrik pemanggilan titik akhir untuk titik akhir dan `ProductionVariant` varian yang ditentukan.  | 

`/aws/sagemaker/Endpoints`Ruang nama menyertakan metrik instance berikut dari panggilan ke. [ InvokeEndpoint](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html)

Metrik tersedia pada frekuensi 1 menit.

Untuk informasi tentang berapa lama CloudWatch metrik dipertahankan, lihat [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)di Referensi *Amazon CloudWatch API*.


**Metrik contoh model titik akhir multi-model**  

| Metrik | Deskripsi | 
| --- | --- | 
| LoadedModelCount  |  Jumlah model yang dimuat dalam wadah titik akhir multi-model. Metrik ini dipancarkan per instance. Statistik rata-rata dengan periode 1 menit memberi tahu Anda jumlah rata-rata model yang dimuat per instance. Statistik Jumlah memberi tahu Anda jumlah total model yang dimuat di semua instance di titik akhir. Model yang dilacak metrik ini belum tentu unik karena model mungkin dimuat dalam beberapa wadah di titik akhir. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel  | 


**Dimensi untuk metrik pemuatan model titik akhir multi-model**  

| Dimensi | Deskripsi | 
| --- | --- | 
| EndpointName, VariantName |  Memfilter metrik pemanggilan titik akhir untuk titik akhir dan `ProductionVariant` varian yang ditentukan.  | 

## SageMaker Metrik pekerjaan AI
<a name="cloudwatch-metrics-jobs"></a>

`/aws/sagemaker/TransformJobs`Ruang nama `/aws/sagemaker/ProcessingJobs``/aws/sagemaker/TrainingJobs`,, dan mencakup metrik berikut untuk memproses pekerjaan, pekerjaan pelatihan, dan pekerjaan transformasi batch.

Metrik tersedia pada frekuensi 1 menit.

**catatan**  
Amazon CloudWatch mendukung [metrik kustom resolusi tinggi](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html) dan resolusi terbaiknya adalah 1 detik. Namun, semakin halus resolusinya, semakin pendek umur metrik. CloudWatch Untuk resolusi frekuensi 1 detik, CloudWatch metrik tersedia selama 3 jam. Untuk informasi selengkapnya tentang resolusi dan umur CloudWatch metrik, lihat [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)di Referensi *Amazon CloudWatch * API. 

**Tip**  
[Untuk membuat profil pekerjaan pelatihan Anda dengan resolusi yang lebih baik hingga perincian 100 milidetik (0,1 detik) dan menyimpan metrik pelatihan tanpa batas waktu di Amazon S3 untuk analisis khusus kapan saja, pertimbangkan untuk menggunakan Amazon Debugger. SageMaker ](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debugger.html) SageMaker Debugger menyediakan aturan bawaan untuk secara otomatis mendeteksi masalah pelatihan umum. Ini mendeteksi masalah pemanfaatan sumber daya perangkat keras (seperti CPU, GPU, dan I/O bottleneck). Ini juga mendeteksi masalah model non-konvergen (seperti overfit, gradien menghilang, dan tensor yang meledak). SageMaker Debugger juga menyediakan visualisasi melalui Studio Classic dan laporan profilingnya. [Untuk menjelajahi visualisasi Debugger, lihat [Panduan Dasbor Wawasan SageMaker Debugger, Panduan](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio-insights.html) Laporan [Profil Debugger, dan Menganalisis Data Menggunakan Pustaka Klien](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-report.html). SMDebug](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-analyze-data.html)


**Memproses pekerjaan, pekerjaan pelatihan, dan metrik pekerjaan transformasi batch**  

| Metrik | Deskripsi | 
| --- | --- | 
| CPUUtilization | Jumlah dari setiap pemanfaatan inti CPU individu. Pemanfaatan CPU dari setiap rentang inti adalah 0-100. Misalnya, jika ada empat CPUs, CPUUtilization kisarannya adalah 0% - 400%. Untuk pekerjaan pemrosesan, nilainya adalah pemanfaatan CPU dari wadah pemrosesan pada instance.Untuk pekerjaan pelatihan, nilainya adalah pemanfaatan CPU dari wadah algoritma pada instance.Untuk pekerjaan transformasi batch, nilainya adalah pemanfaatan CPU dari wadah transformasi pada instance. Untuk pekerjaan multi-instance, setiap instans melaporkan metrik pemanfaatan CPU. Namun, tampilan default CloudWatch menunjukkan pemanfaatan CPU rata-rata di semua instance. Unit: Persen | 
| DiskUtilization | Persentase ruang disk yang digunakan oleh kontainer pada sebuah instance. Kisaran nilai ini adalah 0% - 100%. Metrik ini tidak didukung untuk pekerjaan transformasi batch.Untuk pekerjaan pemrosesan, nilainya adalah pemanfaatan ruang disk dari wadah pemrosesan pada instance.Untuk pekerjaan pelatihan, nilainya adalah pemanfaatan ruang disk dari wadah algoritma pada instance.Unit: Persen Untuk pekerjaan multi-instance, setiap instance melaporkan metrik pemanfaatan disk. Namun, tampilan default CloudWatch menunjukkan pemanfaatan disk rata-rata di semua instance.  | 
| GPUMemoryUtilization | Persentase memori GPU yang digunakan oleh kontainer pada sebuah instance. Kisaran nilai adalah 0-100 dan dikalikan dengan jumlah. GPUs Misalnya, jika ada empat GPUs, `GPUMemoryUtilization` kisarannya adalah 0% - 400%.Untuk pekerjaan pemrosesan, nilainya adalah pemanfaatan memori GPU dari wadah pemrosesan pada instance.Untuk pekerjaan pelatihan, nilainya adalah pemanfaatan memori GPU dari wadah algoritma pada instance.Untuk pekerjaan transformasi batch, nilainya adalah pemanfaatan memori GPU dari wadah transformasi pada instance. Untuk pekerjaan multi-instance, setiap instance melaporkan metrik pemanfaatan memori GPU. Namun, tampilan default CloudWatch menunjukkan pemanfaatan memori GPU rata-rata di semua instance. Unit: Persen | 
| GPUUtilization | Persentase unit GPU yang digunakan oleh kontainer pada sebuah instance. Nilai dapat berkisar antara 0-100 dan dikalikan dengan jumlah. GPUs Misalnya, jika ada empat GPUs, `GPUUtilization` kisarannya adalah 0% - 400%.Untuk pekerjaan pemrosesan, nilainya adalah pemanfaatan GPU dari wadah pemrosesan pada instance.Untuk pekerjaan pelatihan, nilainya adalah pemanfaatan GPU dari wadah algoritma pada instance.Untuk pekerjaan transformasi batch, nilainya adalah pemanfaatan GPU dari wadah transformasi pada instance. Untuk pekerjaan multi-instance, setiap instans melaporkan metrik pemanfaatan GPU. Namun, tampilan default CloudWatch menunjukkan pemanfaatan GPU rata-rata di semua instance. Unit: Persen | 
| MemoryUtilization | Persentase memori yang digunakan oleh kontainer pada sebuah instance. Kisaran nilai ini adalah 0% - 100%.Untuk pekerjaan pemrosesan, nilainya adalah pemanfaatan memori dari wadah pemrosesan pada instance.Untuk pekerjaan pelatihan, nilainya adalah pemanfaatan memori dari wadah algoritma pada instance.Untuk pekerjaan transformasi batch, nilainya adalah pemanfaatan memori dari wadah transformasi pada instance.Unit: Persen Untuk pekerjaan multi-instance, setiap instance melaporkan metrik pemanfaatan memori. Namun, tampilan default CloudWatch menunjukkan pemanfaatan memori rata-rata di semua instance.  | 


**Dimensi untuk metrik pekerjaan**  

| Dimensi | Deskripsi | 
| --- | --- | 
| Host |  Untuk memproses pekerjaan, nilai untuk dimensi ini memiliki format`[processing-job-name]/algo-[instance-number-in-cluster]`. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan pemrosesan dan instance yang ditentukan. Format dimensi ini hanya ada di `/aws/sagemaker/ProcessingJobs` namespace. Untuk pekerjaan pelatihan, nilai untuk dimensi ini memiliki format`[training-job-name]/algo-[instance-number-in-cluster]`. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance pelatihan yang ditentukan. Format dimensi ini hanya ada di `/aws/sagemaker/TrainingJobs` namespace. Untuk pekerjaan transformasi batch, nilai untuk dimensi ini memiliki format`[transform-job-name]/[instance-id]`. Gunakan dimensi ini untuk memfilter metrik instance untuk pekerjaan dan instance transformasi batch yang ditentukan. Format dimensi ini hanya ada di `/aws/sagemaker/TransformJobs` namespace.  | 

## SageMaker Metrik pekerjaan Inference Recommender
<a name="cloudwatch-metrics-inference-recommender"></a>

`/aws/sagemaker/InferenceRecommendationsJobs`Namespace menyertakan metrik berikut untuk pekerjaan rekomendasi inferensi.


**Metrik Inferensi Rekomendasi**  

| Metrik | Deskripsi | 
| --- | --- | 
| ClientInvocations |  Jumlah `InvokeEndpoint` permintaan yang dikirim ke titik akhir model, seperti yang diamati oleh Inference Recommender. Satuan: Tidak ada Statistik yang valid: Jumlah  | 
| ClientInvocationErrors |  Jumlah `InvokeEndpoint` permintaan yang gagal, seperti yang diamati oleh Inference Recommender. Satuan: Tidak ada Statistik yang valid: Jumlah  | 
| ClientLatency |  Interval waktu yang dibutuhkan antara mengirim `InvokeEndpoint` panggilan dan menerima respons seperti yang diamati oleh Inference Recommender. Perhatikan bahwa waktunya dalam milidetik, sedangkan metrik pemanggilan `ModelLatency` titik akhir dalam mikrodetik. Unit: Milidetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel, Persentil  | 
| NumberOfUsers |  Jumlah pengguna bersamaan yang mengirim `InvokeEndpoint` permintaan ke titik akhir model. Satuan: Tidak ada Statistik yang valid: Maks, Min, Rata-rata  | 


**Dimensi untuk metrik pekerjaan Inference Recommender**  

| Dimensi | Deskripsi | 
| --- | --- | 
| JobName |  Filter metrik pekerjaan Inference Recommender untuk pekerjaan Inference Recommender yang ditentukan.  | 
| EndpointName |  Filter metrik pekerjaan Inference Recommender untuk titik akhir yang ditentukan.  | 

## SageMaker Metrik Ground Truth
<a name="cloudwatch-metrics-ground-truth"></a>


**Metrik Ground Truth**  

| Metrik | Deskripsi | 
| --- | --- | 
| ActiveWorkers |  Seorang pekerja aktif tunggal di tim kerja pribadi mengajukan, melepaskan, atau menolak tugas. Untuk mendapatkan jumlah total pekerja aktif, gunakan statistik Jumlah. Ground Truth mencoba menyampaikan setiap `ActiveWorkers` acara individu satu kali. Jika pengiriman ini tidak berhasil, metrik ini mungkin tidak melaporkan jumlah total pekerja aktif. Satuan: Tidak ada Statistik yang valid: Jumlah, Jumlah Sampel  | 
| DatasetObjectsAutoAnnotated |  Jumlah objek kumpulan data yang dianotasi secara otomatis dalam pekerjaan pelabelan. Metrik ini hanya dipancarkan saat pelabelan otomatis diaktifkan. Untuk melihat kemajuan pekerjaan pelabelan, gunakan metrik Max. Satuan: Tidak ada Statistik yang valid: Maks  | 
| DatasetObjectsHumanAnnotated |  Jumlah objek dataset yang dianotasi oleh manusia dalam pekerjaan pelabelan. Untuk melihat kemajuan pekerjaan pelabelan, gunakan metrik Max. Satuan: Tidak ada Statistik yang valid: Maks  | 
| DatasetObjectsLabelingFailed |  Jumlah objek dataset yang gagal diberi label dalam pekerjaan pelabelan. Untuk melihat kemajuan pekerjaan pelabelan, gunakan metrik Max. Satuan: Tidak ada Statistik yang valid: Maks  | 
| JobsFailed |  Satu pekerjaan pelabelan gagal. Untuk mendapatkan jumlah total pekerjaan pelabelan yang gagal, gunakan statistik Jumlah. Satuan: Tidak ada Statistik yang valid: Jumlah, Jumlah Sampel  | 
| JobsSucceeded |  Pekerjaan pelabelan tunggal berhasil. Untuk mendapatkan jumlah total pekerjaan pelabelan yang berhasil, gunakan statistik Sum. Satuan: Tidak ada Statistik yang valid: Jumlah, Jumlah Sampel  | 
| JobsStopped |  Satu pekerjaan pelabelan dihentikan. Untuk mendapatkan jumlah total pekerjaan pelabelan yang dihentikan, gunakan statistik Jumlah. Satuan: Tidak ada Statistik yang valid: Jumlah, Jumlah Sampel  | 
| TasksAccepted |  Satu tugas diterima oleh seorang pekerja. Untuk mendapatkan jumlah total tugas yang diterima oleh pekerja, gunakan statistik Jumlah. Ground Truth mencoba untuk menyampaikan setiap `TaskAccepted` peristiwa individu satu kali. Jika pengiriman ini tidak berhasil, metrik ini mungkin tidak melaporkan jumlah total tugas yang diterima. Satuan: Tidak ada  Statistik yang valid: Jumlah, Jumlah Sampel  | 
| TasksDeclined |  Satu tugas ditolak oleh seorang pekerja. Untuk mendapatkan jumlah total tugas yang ditolak oleh pekerja, gunakan statistik Jumlah. Ground Truth mencoba untuk menyampaikan setiap `TasksDeclined` peristiwa individu satu kali. Jika pengiriman ini tidak berhasil, metrik ini mungkin tidak melaporkan jumlah total tugas yang ditolak. Satuan: Tidak ada Statistik yang Valid: Jumlah, Jumlah Sampel  | 
| TasksReturned |  Satu tugas dikembalikan. Untuk mendapatkan jumlah total tugas yang dikembalikan, gunakan statistik Jumlah. Ground Truth mencoba untuk menyampaikan setiap `TasksReturned` peristiwa individu satu kali. Jika pengiriman ini tidak berhasil, metrik ini mungkin tidak melaporkan jumlah total tugas yang dikembalikan. Satuan: Tidak ada  Statistik yang valid: Jumlah, Jumlah Sampel  | 
| TasksSubmitted |  Satu tugas adalah submitted/completed oleh seorang pekerja swasta. Untuk mendapatkan jumlah total tugas yang diajukan oleh pekerja, gunakan statistik Jumlah. Ground Truth mencoba untuk menyampaikan setiap `TasksSubmitted` peristiwa individu satu kali. Jika pengiriman ini tidak berhasil, metrik ini mungkin tidak melaporkan jumlah total tugas yang dikirimkan. Satuan: Tidak ada Statistik yang valid: Jumlah, Jumlah Sampel  | 
| TimeSpent |  Waktu yang dihabiskan untuk tugas yang diselesaikan oleh pekerja swasta. Metrik ini tidak termasuk waktu ketika seorang pekerja berhenti atau beristirahat. Ground Truth mencoba untuk menyampaikan setiap `TimeSpent` acara satu kali. Jika pengiriman ini tidak berhasil, metrik ini mungkin tidak melaporkan jumlah total waktu yang dihabiskan. Unit: detik Statistik yang valid: Jumlah, Jumlah Sampel  | 
| TotalDatasetObjectsLabeled |  Jumlah objek dataset yang berhasil dilabeli dalam pekerjaan pelabelan. Untuk melihat kemajuan pekerjaan pelabelan, gunakan metrik Max. Satuan: Tidak ada Statistik yang valid: Maks  | 


**Dimensi untuk metrik objek dataset**  

| Dimensi | Deskripsi | 
| --- | --- | 
| LabelingJobName |  Memfilter metrik jumlah objek kumpulan data untuk pekerjaan pelabelan.  | 

## Metrik Toko SageMaker Fitur Amazon
<a name="cloudwatch-metrics-feature-store"></a>


**Metrik konsumsi Toko Fitur**  

| Metrik | Deskripsi | 
| --- | --- | 
| ConsumedReadRequestsUnits |  Jumlah unit baca yang dikonsumsi selama periode waktu yang ditentukan. Anda dapat mengambil unit baca yang dikonsumsi untuk operasi runtime feature store dan grup fitur yang sesuai. Satuan: Tidak ada Statistik yang valid: Semua  | 
| ConsumedWriteRequestsUnits |  Jumlah unit tulis yang dikonsumsi selama periode waktu yang ditentukan. Anda dapat mengambil unit tulis yang dikonsumsi untuk operasi runtime feature store dan grup fitur yang sesuai. Satuan: Tidak ada Statistik yang valid: Semua  | 
| ConsumedReadCapacityUnits |  Jumlah unit kapasitas baca yang disediakan yang dikonsumsi selama periode waktu yang ditentukan. Anda dapat mengambil unit kapasitas baca yang dikonsumsi untuk operasi runtime feature store dan grup fitur yang sesuai. Satuan: Tidak ada Statistik yang valid: Semua  | 
| ConsumedWriteCapacityUnits |  Jumlah unit kapasitas tulis yang disediakan yang dikonsumsi selama periode waktu yang ditentukan. Anda dapat mengambil unit kapasitas tulis yang dikonsumsi untuk operasi runtime feature store dan grup fitur yang sesuai. Satuan: Tidak ada Statistik yang valid: Semua  | 


**Dimensi untuk metrik konsumsi Feature Store**  

| Dimensi | Deskripsi | 
| --- | --- | 
| FeatureGroupName, OperationName |  Memfilter metrik konsumsi runtime feature store dari grup fitur dan operasi yang telah Anda tentukan.  | 


**Metrik operasional Toko Fitur**  

| Metrik | Deskripsi | 
| --- | --- | 
| Invocations |  Jumlah permintaan yang dibuat untuk operasi runtime feature store selama periode waktu yang ditentukan. Satuan: Tidak ada Statistik yang valid: Jumlah  | 
| Operation4XXErrors |  Jumlah permintaan yang dibuat untuk operasi runtime Feature Store di mana operasi mengembalikan kode respons HTTP 4xx. Untuk setiap respons 4xx, 1 dikirim; lain, 0 dikirim. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah  | 
| Operation5XXErrors |  Jumlah permintaan yang dibuat untuk operasi runtime feature store dimana operasi mengembalikan kode respons HTTP 5xx. Untuk setiap respons 5xx, 1 dikirim; lain, 0 dikirim. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah  | 
| ThrottledRequests |  Jumlah permintaan yang dibuat untuk operasi runtime feature store tempat permintaan dibatasi. Untuk setiap permintaan yang dibatasi, 1 dikirim; lain, 0 dikirim. Satuan: Tidak ada Statistik yang valid: Rata-rata, Jumlah  | 
| Latency |  Interval waktu untuk memproses permintaan yang dibuat ke operasi runtime Feature Store. Interval ini diukur dari waktu SageMaker AI menerima permintaan hingga mengembalikan respons ke klien. Unit: Mikrodetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel, Persentil  | 


**Dimensi untuk metrik operasional Feature Store**  

| Dimensi | Deskripsi | 
| --- | --- | 
|  `FeatureGroupName`, `OperationName`  | Memfilter metrik operasional runtime feature store dari grup fitur dan operasi yang telah Anda tentukan. Anda dapat menggunakan dimensi ini untuk operasi non batch, seperti GetRecord, PutRecord, dan DeleteRecord. | 
| OperationName |  Memfilter metrik operasional runtime feature store untuk operasi yang telah Anda tentukan. Anda dapat menggunakan dimensi ini untuk operasi batch seperti BatchGetRecord.  | 

## SageMaker metrik saluran pipa
<a name="cloudwatch-metrics-pipelines"></a>

`AWS/Sagemaker/ModelBuildingPipeline`Namespace menyertakan metrik berikut untuk eksekusi pipeline.

Dua kategori metrik eksekusi pipeline tersedia:
+  **Metrik Eksekusi di Semua Pipelines** — Metrik eksekusi pipeline level akun (untuk semua pipeline di akun saat ini)
+  **Metrik Eksekusi berdasarkan Pipeline** — Metrik eksekusi pipa per pipeline

Metrik tersedia pada frekuensi 1 menit.


**Metrik eksekusi pipa**  

| Metrik | Deskripsi | 
| --- | --- | 
| ExecutionStarted |  Jumlah eksekusi pipa yang dimulai. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| ExecutionFailed |  Jumlah eksekusi pipa yang gagal. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| ExecutionSucceeded |  Jumlah eksekusi pipa yang berhasil. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| ExecutionStopped |  Jumlah eksekusi pipa yang berhenti. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| ExecutionDuration |  Durasi dalam milidetik eksekusi pipeline berjalan. Unit: Milidetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel  | 


**Dimensi untuk metrik eksekusi pipa**  

| Dimensi | Deskripsi | 
| --- | --- | 
| PipelineName |  Memfilter metrik eksekusi pipeline untuk pipeline tertentu.  | 

`AWS/Sagemaker/ModelBuildingPipeline`Namespace menyertakan metrik berikut untuk langkah-langkah pipeline.

Metrik tersedia pada frekuensi 1 menit.


**Metrik langkah pipa**  

| Metrik | Deskripsi | 
| --- | --- | 
| StepStarted |  Jumlah langkah yang dimulai. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| StepFailed |  Jumlah langkah yang gagal. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| StepSucceeded |  Jumlah langkah yang berhasil. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| StepStopped |  Jumlah langkah yang berhenti. Unit: Hitungan Statistik yang valid: Rata-rata, Jumlah  | 
| StepDuration |  Durasi dalam milidetik langkah berjalan. Unit: Milidetik Statistik yang valid: Rata-rata, Jumlah, Min, Maks, Jumlah Sampel  | 


**Dimensi untuk metrik langkah pipa**  

| Dimensi | Deskripsi | 
| --- | --- | 
| PipelineName, StepName |  Memfilter metrik langkah untuk pipeline dan langkah tertentu.  | 