콘텐츠 도메인 4: ML 솔루션 모니터링, 유지 관리 및 보안
작업 4.1: 모델 추론 모니터링
관련 지식:
ML 모델의 드리프트
데이터 품질 및 모델 성능을 모니터링하는 기법
모니터링과 관련된 ML 렌즈의 설계 원칙
관련 기술:
프로덕션 모델 모니터링(예: Amazon SageMaker Model Monitor 사용)
데이터 처리 또는 모델 추론의 이상 징후나 오류를 감지하기 위한 워크플로 모니터링
모델 성능에 영향을 줄 수 있는 데이터 분포의 변화 감지(예: SageMaker Clarify 사용)
A/B 테스트를 사용하여 프로덕션 환경에서의 모델 성능 모니터링
작업 4.2: 인프라 및 비용 모니터링 및 최적화
관련 지식:
ML 인프라의 주요 성능 지표(예: 활용률, 처리량, 가용성, 확장성, 내결함성)
지연 시간 및 성능 문제를 해결하기 위한 모니터링 및 관찰성 도구(예: AWS X-Ray, Amazon CloudWatch Lambda Insights, Amazon CloudWatch 로그 인사이트)
AWS CloudTrail을 사용하여 재훈련 활동을 기록, 모니터링 및 호출하는 방법
인스턴스 유형 간의 차이점 및 성능에 미치는 영향(예: 메모리 최적화, 컴퓨팅 최적화, 범용, 추론 최적화)
비용 분석 도구의 기능(예: AWS Cost Explorer, AWS Billing and Cost Management, AWS Trusted Advisor)
비용 추적 및 할당 기술(예: 리소스 태깅)
관련 기술:
리소스 문제 해결 및 분석을 위한 도구 구성 및 사용(예: CloudWatch 로그, CloudWatch 경보)
CloudTrail 추적 만들기
성능 지표를 모니터링하기 위한 대시보드 설정(예: Amazon QuickSight, CloudWatch 대시보드 사용)
인프라 모니터링(예: Amazon EventBridge 이벤트 사용)
인스턴스 패밀리 및 적정 규모 조정(예: SageMaker AI Inference Recommender 및 AWS Compute Optimizer 사용)
지연 시간 및 스케일링 문제 모니터링 및 해결
비용 모니터링을 위한 인프라 준비(예: 태깅 전략 적용 등)
비용 및 성능과 관련된 용량 문제 해결(예: 프로비저닝된 동시성, 서비스 할당량, 오토 스케일링)
적절한 비용 관리 도구를 사용하여 비용 최적화 및 비용 할당량 설정(예: AWS Cost Explorer, AWS Trusted Advisor, AWS Budgets)
구매 옵션을 선택하여 인프라 비용 최적화(예: 스팟 인스턴스, 온디맨드 인스턴스, 예약 인스턴스, SageMaker AI 절감형 플랜)
작업 4.3: AWS 리소스 보호
관련 지식:
AWS 서비스에 대한 액세스를 제어하는 IAM 역할, 정책 및 그룹(예: AWS Identity and Access Management(AWS IAM), 버킷 정책, SageMaker Role Manager)
SageMaker AI 보안 및 규정 준수 기능
ML 리소스에 대한 네트워크 액세스 제어
CI/CD 파이프라인을 위한 보안 모범 사례
관련 기술:
ML 아티팩트에 대한 최소 권한 액세스 구성
ML 시스템과 상호 작용하는 사용자 및 애플리케이션에 대한 IAM 정책 및 역할 구성
지속적인 보안 및 규정 준수를 위한 ML 시스템 모니터링, 감사 및 로깅
보안 문제 해결 및 디버깅
ML 시스템을 안전하게 격리하기 위한 VPC, 서브넷 및 보안 그룹 구축