기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
부록
HyperPod 레시피를 통해 훈련 결과 모니터링
SageMaker HyperPod 레시피는 훈련 동작을 분석하기 위한 Tensorboard 통합을 제공합니다. 또한 이러한 레시피에는 Python 코드 실행을 추적하고 시각화하기 위한 로우 오버헤드 도구인 VizTracer가 포함되어 있습니다. 자세한 내용은 VizTracer
텐서보드 로그는 생성되어 내에 저장됩니다log_dir. 로컬에서 이러한 로그에 액세스하고 분석하려면 다음 절차를 사용합니다.
-
훈련 환경에서 로컬 머신으로 Tensorboard 실험 폴더를 다운로드합니다.
-
로컬 머신에서 터미널 또는 명령 프롬프트를 엽니다.
-
다운로드한 실험 폴더가 포함된 디렉터리로 이동합니다.
-
명령을 실행하여 Tensorboard를 시작합니다.
tensorboard --port=<port> --bind_all --logdir experiment. -
웹 브라우저를 열고를 방문합니다
http://localhost:8008.
이제 Tensorboard 인터페이스 내에서 훈련 작업의 상태 및 시각화를 볼 수 있습니다. 상태 및 시각화를 보면 훈련 프로세스를 모니터링하고 분석하는 데 도움이 됩니다. 훈련 프로세스를 모니터링하고 분석하면 모델의 동작과 성능에 대한 인사이트를 얻을 수 있습니다. Tensorboard로 훈련을 모니터링하고 분석하는 방법에 대한 자세한 내용은 NVIDIA NeMo 프레임워크 사용 설명서를
VizTracer
VizTracer를 활성화하려면 환경 변수를 ENABLE_VIZTRACER로 설정하여 레시피를 수정할 수 있습니다1. 훈련이 완료되면 VizTracer 프로필이 실험 폴더에 있습니다log_dir/viztracer_xxx.json. 프로필을 분석하려면 다음 vizviewer 도구를 사용하여 프로필을 다운로드하고 열 수 있습니다.
vizviewer --port <port> viztracer_xxx.json
이 명령은 포트 9001에서 vizviewer를 시작합니다. 브라우저에서 http://localhost:<port>로 이동하여 VizTracer를 볼 수 있습니다. VizTracer를 연 후 훈련 분석을 시작합니다. VizTracer 사용에 대한 자세한 내용은 VizTracer 설명서를