콘텐츠 도메인 4: ML 솔루션 모니터링, 유지 관리 및 보안 - AWS Certified Machine Learning Engineer

콘텐츠 도메인 4: ML 솔루션 모니터링, 유지 관리 및 보안

작업 4.1: 모델 추론 모니터링

관련 지식:

  • ML 모델의 드리프트

  • 데이터 품질 및 모델 성능을 모니터링하는 기법

  • 모니터링과 관련된 ML 렌즈의 설계 원칙

관련 기술:

  • 프로덕션 모델 모니터링(예: Amazon SageMaker Model Monitor 사용)

  • 데이터 처리 또는 모델 추론의 이상 징후나 오류를 감지하기 위한 워크플로 모니터링

  • 모델 성능에 영향을 줄 수 있는 데이터 분포의 변화 감지(예: SageMaker Clarify 사용)

  • A/B 테스트를 사용하여 프로덕션 환경에서의 모델 성능 모니터링

작업 4.2: 인프라 및 비용 모니터링 및 최적화

관련 지식:

  • ML 인프라의 주요 성능 지표(예: 활용률, 처리량, 가용성, 확장성, 내결함성)

  • 지연 시간 및 성능 문제를 해결하기 위한 모니터링 및 관찰성 도구(예: AWS X-Ray, Amazon CloudWatch Lambda Insights, Amazon CloudWatch 로그 인사이트)

  • AWS CloudTrail을 사용하여 재훈련 활동을 기록, 모니터링 및 호출하는 방법

  • 인스턴스 유형 간의 차이점 및 성능에 미치는 영향(예: 메모리 최적화, 컴퓨팅 최적화, 범용, 추론 최적화)

  • 비용 분석 도구의 기능(예: AWS Cost Explorer, AWS Billing and Cost Management, AWS Trusted Advisor)

  • 비용 추적 및 할당 기술(예: 리소스 태깅)

관련 기술:

  • 리소스 문제 해결 및 분석을 위한 도구 구성 및 사용(예: CloudWatch 로그, CloudWatch 경보)

  • CloudTrail 추적 만들기

  • 성능 지표를 모니터링하기 위한 대시보드 설정(예: Amazon QuickSight, CloudWatch 대시보드 사용)

  • 인프라 모니터링(예: Amazon EventBridge 이벤트 사용)

  • 인스턴스 패밀리 및 적정 규모 조정(예: SageMaker AI Inference Recommender 및 AWS Compute Optimizer 사용)

  • 지연 시간 및 스케일링 문제 모니터링 및 해결

  • 비용 모니터링을 위한 인프라 준비(예: 태깅 전략 적용 등)

  • 비용 및 성능과 관련된 용량 문제 해결(예: 프로비저닝된 동시성, 서비스 할당량, 오토 스케일링)

  • 적절한 비용 관리 도구를 사용하여 비용 최적화 및 비용 할당량 설정(예: AWS Cost Explorer, AWS Trusted Advisor, AWS Budgets)

  • 구매 옵션을 선택하여 인프라 비용 최적화(예: 스팟 인스턴스, 온디맨드 인스턴스, 예약 인스턴스, SageMaker AI 절감형 플랜)

작업 4.3: AWS 리소스 보호

관련 지식:

  • AWS 서비스에 대한 액세스를 제어하는 IAM 역할, 정책 및 그룹(예: AWS Identity and Access Management(AWS IAM), 버킷 정책, SageMaker Role Manager)

  • SageMaker AI 보안 및 규정 준수 기능

  • ML 리소스에 대한 네트워크 액세스 제어

  • CI/CD 파이프라인을 위한 보안 모범 사례

관련 기술:

  • ML 아티팩트에 대한 최소 권한 액세스 구성

  • ML 시스템과 상호 작용하는 사용자 및 애플리케이션에 대한 IAM 정책 및 역할 구성

  • 지속적인 보안 및 규정 준수를 위한 ML 시스템 모니터링, 감사 및 로깅

  • 보안 문제 해결 및 디버깅

  • ML 시스템을 안전하게 격리하기 위한 VPC, 서브넷 및 보안 그룹 구축