内容领域 1:机器学习 (ML) 的数据准备
任务 1.1:摄取和存储数据
掌握以下知识:
数据格式和摄取机制(例如,经验证和未经验证的格式、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO)
如何使用核心 AWS 数据来源(例如,Amazon S3、Amazon Elastic File System [Amazon EFS]、适用于 NetApp ONTAP 的 Amazon FSx)
如何使用 AWS 流式数据来源来摄取数据(例如,Amazon Kinesis、Apache Flink、Apache Kafka)
AWS 存储选项,包括使用案例和权衡
具备以下技能:
使用相关的 AWS 服务选项(例如,Amazon S3 Transfer Acceleration、Amazon EBS 预调配 IOPS),从存储(例如,Amazon S3、Amazon Elastic Block Store [Amazon EBS]、Amazon EFS、Amazon RDS、Amazon DynamoDB)中提取数据
根据数据访问模式选择合适的数据格式(例如 Parquet、JSON、CSV、ORC)
将数据摄取到 Amazon SageMaker Data Wrangler 和 SageMaker 特征存放区
合并多个来源中的数据(例如,使用编程技术、AWS Glue、Apache Spark)
针对涉及容量和可扩展性的数据摄取和存储问题,进行故障排除和调试
根据成本、性能和数据结构,选择初始的存储
任务 1.2:转换数据并执行特征工程
掌握以下知识:
数据清理和转换技术(例如,检测和处理异常值、填补缺失的数据、合并数据、重复数据删除)
特征工程技术(例如,数据缩放和标准化、特征拆分、分箱、对数变换、标准化)
编码技术(例如,独热编码、二进制编码、标签编码、令牌化)
用于浏览、可视化或转换数据和特征的工具(例如,SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew)
转换流式数据的服务(例如 AWS Lambda、Spark)
数据标注和标记服务,用于创建高质量的标注数据集
具备以下技能:
使用 AWS 工具(例如 AWS Glue、DataBrew、运行在 Amazon EMR 上的 Spark、SageMaker Data Wrangler)转换数据
使用 AWS 工具(例如 SageMaker 特征存放区)创建和管理特征
使用 AWS 服务(例如 SageMaker Ground Truth、Amazon Mechanical Turk)验证和标注数据
任务 1.3:确保数据完整性,以及准备数据用于建模
掌握以下知识:
数字、文本和图像数据的预训练偏差指标(例如,类不平衡 [CI]、标签比例差异 [DPL])
解决数字、文本和图像数据集中 CI 的策略(例如,合成数据生成、重新采样)
加密数据的技术
数据分类、匿名化和掩蔽
合规性要求的影响(例如,个人身份信息 [PII]、受保护的健康信息 [PHI]、数据驻留)
具备以下技能:
验证数据质量(例如,使用 DataBrew 和 AWS Glue 数据质量自动监测功能)
使用 AWS 工具(例如 SageMaker Clarify)识别数据中的偏差来源(例如,选择偏差、测量偏差)并采取缓解措施
准备数据以减少预测偏差(例如,使用数据集拆分、随机排列和扩充)
配置数据以加载到模型训练资源(例如,Amazon EFS、Amazon FSx)中