

# 内容领域 4： ML 解决方案的监控、维护和安全保护
<a name="machine-learning-engineer-associate-01-domain4"></a>

**Topics**
+ [任务 4.1： 监控模型推理](#machine-learning-engineer-associate-01-domain4-task1)
+ [任务 4.2： 监控和优化基础设施与成本](#machine-learning-engineer-associate-01-domain4-task2)
+ [任务 4.3： 保护 AWS 资源](#machine-learning-engineer-associate-01-domain4-task3)

## 任务 4.1： 监控模型推理
<a name="machine-learning-engineer-associate-01-domain4-task1"></a>

掌握以下知识：
+ ML 模型中的漂移
+ 监控数据质量和模型性能的技术
+ 设计原则，用于与监控相关的 ML 剖析

具备以下技能：
+ 监控用于生产的模型（例如，使用 Amazon SageMaker Model Monitor）
+ 监控工作流以检测数据处理或模型推理中的异常或错误
+ 检测可能影响模型性能的数据分布变化（例如，使用 SageMaker Clarify）
+ 使用 A/B 测试监控用于生产的模型的性能

## 任务 4.2： 监控和优化基础设施与成本
<a name="machine-learning-engineer-associate-01-domain4-task2"></a>

掌握以下知识：
+ ML 基础设施的关键性能指标（例如，利用率、吞吐量、可用性、可扩展性、容错能力）
+ 用于解决延迟和性能问题的监控和可观测性工具（例如，AWS X-Ray、Amazon CloudWatch Lambda Insights、Amazon CloudWatch Logs Insights）
+ 如何使用 AWS CloudTrail 记录、监控和调用重新培训活动
+ 实例类型之间的差异及其如何影响性能（例如，内存优化型、计算优化型、通用型、推理优化型）
+ 成本分析工具的功能（例如 AWS Cost Explorer、AWS 账单与成本管理、AWS Trusted Advisor）
+ 成本跟踪和分配技术（例如，资源标记）

具备以下技能：
+ 配置和使用工具，以便对资源进行故障排除和分析（例如，CloudWatch Logs、CloudWatch 警报）
+ 创建 CloudTrail 跟踪记录
+ 设置控制面板以监控性能指标（例如，使用 Amazon QuickSight、CloudWatch 控制面板）
+ 监控基础设施（例如，使用 Amazon EventBridge 事件）
+ 调整实例系列和大小（例如，使用 SageMaker AI Inference Recommender 和 AWS Compute Optimizer）
+ 监控并解决延迟和扩缩问题
+ 准备基础设施进行成本监控（例如，通过应用标记策略）
+ 对涉及成本和性能的容量问题进行故障排除（例如，预置并发、服务配额、自动扩缩）
+ 使用合适的成本管理工具（例如 AWS Cost Explorer、AWS Trusted Advisor、AWS Budgets）来优化成本和设置成本配额
+ 通过选择购买选项（例如，竞价型实例、按需型实例、预留实例、SageMaker AI 节省计划）来优化基础设施成本

## 任务 4.3： 保护 AWS 资源
<a name="machine-learning-engineer-associate-01-domain4-task3"></a>

掌握以下知识：
+ 控制访问 AWS 服务的 IAM 角色、策略和组（例如，AWS Identity and Access Management [IAM]、存储桶策略、SageMaker 角色管理器）
+ SageMaker AI 安全性和合规性功能
+ 控制对 ML 资源的网络访问
+ CI/CD 管道的安全最佳实践

具备以下技能：
+ 配置对 ML 构件的最低权限访问
+ 为与 ML 系统交互的用户和应用程序配置 IAM 策略和角色
+ 对 ML 系统进行监控、审计和日志记录，确保实现持续的安全性和合规性
+ 对安全问题进行故障排除和调试
+ 构建 VPC、子网和安全组以安全地隔离 ML 系统