

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 훈련 작업 모니터링 및 분석용 Amazon CloudWatch 지표
<a name="training-metrics"></a>

Amazon SageMaker 훈련 작업은 훈련 데이터세트에서 예시를 제공하여 예측을 수행하도록 모델을 교육하는 반복적 프로세스입니다. 일반적으로 훈련 알고리즘은 훈련 오류 및 예측 정확도 등과 같은 여러 지표를 계산합니다. 이러한 지표는 모델이 잘 학습하고 있어 처음 보는 데이터에 대한 예측을 잘 일반화할 수 있는지 여부를 진단하는 데 도움이 됩니다. 훈련 알고리즘은 이러한 지표의 값을 로그에 쓰고 SageMaker AI는 실시간으로 이러한 로그를 모니터링하여 Amazon CloudWatch에 보냅니다. 훈련 작업의 성능을 분석하기 위해 사용자는 CloudWatch에서 이러한 지표 그래프를 볼 수 있습니다. 또한 훈련 작업이 완료되면 사용자는 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html) 작업을 호출해 최종 반복에서 계산한 지표 값 목록을 얻을 수 있습니다.

**참고**  
Amazon CloudWatch는 [고해상도 사용자 지정 지표](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html)를 지원하며, 최상의 해상도는 1초입니다. 그러나 해상도가 높을수록 CloudWatch 지표의 수명이 짧아집니다. 1초 주파수 해상도의 경우 CloudWatch 지표는 3시간 동안 사용할 수 있습니다. CloudWatch 지표의 해상도와 수명에 대한 자세한 내용은 *Amazon CloudWatch API 참조*의 [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)를 참조하세요.

**작은 정보**  
훈련 작업을 100밀리초(0.1초)까지 세밀한 해상도로 프로파일링하고 언제든지 사용자 지정 분석을 위해 Amazon S3에 훈련 지표를 무기한 저장하려는 경우 [Amazon SageMaker Debugger](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debugger.html) 사용을 고려해 보세요. SageMaker Debugger는 일반적인 훈련 문제를 자동으로 감지하는 내장 규칙을 제공하며, 하드웨어 리소스 사용 문제(예: CPU, GPU, I/O 병목 현상) 및 비수렴 모델 문제(예: 과적합, 그라데이션 소실, 텐서 폭발)를 탐지합니다. SageMaker Debugger는 Studio Classic 및 프로파일링 보고서를 통해 시각화도 제공합니다. Debugger 시각화를 살펴보려면 [SageMaker Debugger 인사이트 대시보드 안내](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio-insights-walkthrough.htm), [Debugger 프로파일링 보고서 안내](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-profiling-report.html#debugger-profiling-report-walkthrough) 및 [SMDebug 클라이언트 라이브러리를 사용한 데이터 분석](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-analyze-data.html)을 참조하세요.

**Topics**
+ [훈련 지표 정의](define-train-metrics.md)
+ [훈련 작업 지표 보기](view-train-metrics.md)
+ [예제: 훈련 및 검증 곡선 보기](train-valid-curve.md)