内容领域 4:ML 解决方案的监控、维护和安全保护 - AWS Certified Machine Learning Engineer

内容领域 4:ML 解决方案的监控、维护和安全保护

任务 4.1:监控模型推理

掌握以下知识:

  • ML 模型中的漂移

  • 监控数据质量和模型性能的技术

  • 设计原则,用于与监控相关的 ML 剖析

具备以下技能:

  • 监控用于生产的模型(例如,使用 Amazon SageMaker Model Monitor)

  • 监控工作流以检测数据处理或模型推理中的异常或错误

  • 检测可能影响模型性能的数据分布变化(例如,使用 SageMaker Clarify)

  • 使用 A/B 测试监控用于生产的模型的性能

任务 4.2:监控和优化基础设施与成本

掌握以下知识:

  • ML 基础设施的关键性能指标(例如,利用率、吞吐量、可用性、可扩展性、容错能力)

  • 用于解决延迟和性能问题的监控和可观测性工具(例如,AWS X-Ray、Amazon CloudWatch Lambda Insights、Amazon CloudWatch Logs Insights)

  • 如何使用 AWS CloudTrail 记录、监控和调用重新培训活动

  • 实例类型之间的差异及其如何影响性能(例如,内存优化型、计算优化型、通用型、推理优化型)

  • 成本分析工具的功能(例如 AWS Cost Explorer、AWS 账单与成本管理、AWS Trusted Advisor)

  • 成本跟踪和分配技术(例如,资源标记)

具备以下技能:

  • 配置和使用工具,以便对资源进行故障排除和分析(例如,CloudWatch Logs、CloudWatch 警报)

  • 创建 CloudTrail 跟踪记录

  • 设置控制面板以监控性能指标(例如,使用 Amazon Quick Suite (前称 Amazon QuickSight)、CloudWatch 控制面板)

  • 监控基础设施(例如,使用 Amazon EventBridge 事件)

  • 调整实例系列和大小(例如,使用 SageMaker AI Inference Recommender 和 AWS Compute Optimizer)

  • 监控并解决延迟和扩缩问题

  • 准备基础设施进行成本监控(例如,通过应用标记策略)

  • 对涉及成本和性能的容量问题进行故障排除(例如,预置并发、服务配额、自动扩缩)

  • 使用合适的成本管理工具(例如 AWS Cost Explorer、AWS Trusted Advisor、AWS Budgets)来优化成本和设置成本配额

  • 通过选择购买选项(例如,竞价型实例、按需型实例、预留实例、SageMaker AI 节省计划)来优化基础设施成本

任务 4.3:保护 AWS 资源

掌握以下知识:

  • 控制访问 AWS 服务的 IAM 角色、策略和组(例如,AWS Identity and Access Management [IAM]、存储桶策略、SageMaker 角色管理器)

  • SageMaker AI 安全性和合规性功能

  • 控制对 ML 资源的网络访问

  • CI/CD 管道的安全最佳实践

具备以下技能:

  • 配置对 ML 构件的最低权限访问

  • 为与 ML 系统交互的用户和应用程序配置 IAM 策略和角色

  • 对 ML 系统进行监控、审计和日志记录,确保实现持续的安全性和合规性

  • 对安全问题进行故障排除和调试

  • 构建 VPC、子网和安全组以安全地隔离 ML 系统