内容领域 1:机器学习 (ML) 的数据准备 - AWS Certified Machine Learning Engineer

内容领域 1:机器学习 (ML) 的数据准备

任务 1.1:摄取和存储数据

掌握以下知识:

  • 数据格式和摄取机制(例如,经验证和未经验证的格式、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO)

  • 如何使用核心 AWS 数据来源(例如,Amazon S3、Amazon Elastic File System [Amazon EFS]、适用于 NetApp ONTAP 的 Amazon FSx)

  • 如何使用 AWS 流式数据来源来摄取数据(例如,Amazon Kinesis、Apache Flink、Apache Kafka)

  • AWS 存储选项,包括使用案例和权衡

具备以下技能:

  • 使用相关的 AWS 服务选项(例如,Amazon S3 Transfer Acceleration、Amazon EBS 预调配 IOPS),从存储(例如,Amazon S3、Amazon Elastic Block Store [Amazon EBS]、Amazon EFS、Amazon RDS、Amazon DynamoDB)中提取数据

  • 根据数据访问模式选择合适的数据格式(例如 Parquet、JSON、CSV、ORC)

  • 将数据摄取到 Amazon SageMaker Data Wrangler 和 SageMaker 特征存放区

  • 合并多个来源中的数据(例如,使用编程技术、AWS Glue、Apache Spark)

  • 针对涉及容量和可扩展性的数据摄取和存储问题,进行故障排除和调试

  • 根据成本、性能和数据结构,选择初始的存储

任务 1.2:转换数据并执行特征工程

掌握以下知识:

  • 数据清理和转换技术(例如,检测和处理异常值、填补缺失的数据、合并数据、重复数据删除)

  • 特征工程技术(例如,数据缩放和标准化、特征拆分、分箱、对数变换、标准化)

  • 编码技术(例如,独热编码、二进制编码、标签编码、令牌化)

  • 用于浏览、可视化或转换数据和特征的工具(例如,SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew)

  • 转换流式数据的服务(例如 AWS Lambda、Spark)

  • 数据标注和标记服务,用于创建高质量的标注数据集

具备以下技能:

  • 使用 AWS 工具(例如 AWS Glue、DataBrew、运行在 Amazon EMR 上的 Spark、SageMaker Data Wrangler)转换数据

  • 使用 AWS 工具(例如 SageMaker 特征存放区)创建和管理特征

  • 使用 AWS 服务(例如 SageMaker Ground Truth、Amazon Mechanical Turk)验证和标注数据

任务 1.3:确保数据完整性,以及准备数据用于建模

掌握以下知识:

  • 数字、文本和图像数据的预训练偏差指标(例如,类不平衡 [CI]、标签比例差异 [DPL])

  • 解决数字、文本和图像数据集中 CI 的策略(例如,合成数据生成、重新采样)

  • 加密数据的技术

  • 数据分类、匿名化和掩蔽

  • 合规性要求的影响(例如,个人身份信息 [PII]、受保护的健康信息 [PHI]、数据驻留)

具备以下技能:

  • 验证数据质量(例如,使用 DataBrew 和 AWS Glue 数据质量自动监测功能)

  • 使用 AWS 工具(例如 SageMaker Clarify)识别数据中的偏差来源(例如,选择偏差、测量偏差)并采取缓解措施

  • 准备数据以减少预测偏差(例如,使用数据集拆分、随机排列和扩充)

  • 配置数据以加载到模型训练资源(例如,Amazon EFS、Amazon FSx)中