기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
3. 관찰성 및 모델 관리
체크리스트의 관찰성 및 모델 관리 섹션에는 전체 ML 시스템의 모델 버전 제어 및 리니지 추적이 포함되어 있습니다. 모델 버전 제어를 사용하면 모델에 적용된 모든 변경 사항을 추적하고 제어할 수 있으므로 필요할 때 이전 버전을 복구할 수 있습니다. 리니지 추적은 모델 유입 및 유출에 대한 보기를 제공합니다. 리니지 추적의 또 다른 주요 이점은 배포 및 시스템 복구를 자동화하는 시점 복구(PITR)입니다.
3.1 버전 관리된 모델 레지스트리 |
일반적으로 모델 레지스트리는 모델 구성 요소의 버전 제어 및 리니지 추적을 지원합니다. 좋은 레지스트리는 다음을 포함하여 메타데이터를 버전 관리된 모델에 연결할 수 있습니다.
|
3.2 편향, 공정성 및 설명 가능성 |
최소한 ML 시스템에는 모델 예측을 다른 당사자에게 설명할 수 있는 프로세스가 있어야 합니다. 사용자는 각 특성별로 결과에 편향이 있는지 확인할 수 있어야 합니다. ML 모델에 데이터를 입력하기 전에 데이터 편향을 측정하고 모델 카드 및 감사를 위해 이러한 지표를 기록하는 것이 가장 좋습니다. |
3.3 리니지 추적: 데이터 입력 및 출력 |
추적은 시스템 내부 및 외부의 데이터 흐름을 따라 진행됩니다(예: 데이터 레이크에서 훈련 파이프라인으로 실행). 이 추적은 모든 시스템 프로세스를 다시 생성할 수 있는 레코드 역할을 하며 분석을 위한 감사 추적을 제공합니다. |
3.4 리니지 추적: 환경 정보 |
이 추적에서는 모든 모델 코드의 컨테이너 이미지 및 컨테이너의 관련 종속성과 같은 런타임 환경 설정에 대한 정보를 캡처합니다. |
3.5 리니지 추적: 모델 |
이 추적에서는 모델에 대한 정보를 캡처합니다. 여기에는 모델의 알고리즘에 대한 정보부터 모델에 들어가는 파라미터 및 하이퍼파라미터에 이르기까지 모든 요소가 포함됩니다. |
3.6 배포 및 모니터링과 통합 |
시스템은 PITR에 대한 모니터링 및 배포 하위 시스템과 직접 연결되어야 합니다. 모니터링의 경우 모델 품질 저하를 감지하기 위해 훈련 실행과 비교하여 모델의 성능을 테스트하는 작업을 의미합니다. 배포의 경우 PITR과 필요에 따라 이전 모델 버전으로 롤백할 수 있는 기능을 지원합니다. |
3.7 파이프라인 파라미터 구성 |
기술적으로 파이프라인 파라미터 구성은 리니지 추적과 실험 추적 모두에 속합니다. 파이프라인 구성의 버전을 관리하고 모델과 직접 연결해야 하기 때문입니다. 파이프라인 파라미터 구성은 모든 시스템 오케스트레이션 구성을 추적하고 버전을 관리해야 하므로 이 섹션에 나열되어 있습니다. |
3.8 추적 가능하고 디버깅 가능하며 재현 가능한 문제. |
엔지니어는 많은 노력을 기울이지 않고도 시스템 내 모든 문제를 추적, 디버깅 및 재현할 수 있습니다. 충분한 수준의 관찰성이 있음을 함축합니다. 이 검사는 주로 관찰성 및 모델 관리 섹션의 다른 항목을 이행하는 데서 파생됩니다. |
3.9 성능 시각화 |
시스템은 로그를 시계열 데이터베이스 유형 형식으로 캡처하고 수집하여 대시보드로 직접 수집할 수 있습니다. 대시보드에서는 드릴다운 및 쿼리 기능과 함께 모델 및 컴퓨터 지표를 전체적으로 보여줍니다. |