内容领域 1：机器学习 (ML) 的数据准备 - AWS Certified Machine Learning Engineer

任务 1.1：摄取和存储数据任务 1.2：转换数据并执行特征工程任务 1.3：确保数据完整性，以及准备数据用于建模

内容领域 1：机器学习 (ML) 的数据准备

任务

任务 1.1：摄取和存储数据
任务 1.2：转换数据并执行特征工程
任务 1.3：确保数据完整性，以及准备数据用于建模

任务 1.1：摄取和存储数据

掌握以下知识：

数据格式和摄取机制（例如，经验证和未经验证的格式、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO）
如何使用核心 AWS 数据来源（例如，Amazon S3、Amazon Elastic File System [Amazon EFS]、适用于 NetApp ONTAP 的 Amazon FSx）
如何使用 AWS 流式数据来源来摄取数据（例如，Amazon Kinesis、Apache Flink、Apache Kafka）
AWS 存储选项，包括使用案例和权衡

具备以下技能：

使用相关的 AWS 服务选项（例如，Amazon S3 Transfer Acceleration、Amazon EBS 预调配 IOPS），从存储（例如，Amazon S3、Amazon Elastic Block Store [Amazon EBS]、Amazon EFS、Amazon RDS、Amazon DynamoDB）中提取数据
根据数据访问模式选择合适的数据格式（例如 Parquet、JSON、CSV、ORC）
将数据摄取到 Amazon SageMaker Data Wrangler 和 SageMaker 特征存放区
合并多个来源中的数据（例如，使用编程技术、AWS Glue、Apache Spark）
针对涉及容量和可扩展性的数据摄取和存储问题，进行故障排除和调试
根据成本、性能和数据结构，选择初始的存储

任务 1.2：转换数据并执行特征工程

掌握以下知识：

数据清理和转换技术（例如，检测和处理异常值、填补缺失的数据、合并数据、重复数据删除）
特征工程技术（例如，数据缩放和标准化、特征拆分、分箱、对数变换、标准化）
编码技术（例如，独热编码、二进制编码、标签编码、令牌化）
用于浏览、可视化或转换数据和特征的工具（例如，SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew）
转换流式数据的服务（例如 AWS Lambda、Spark）
数据标注和标记服务，用于创建高质量的标注数据集

具备以下技能：

使用 AWS 工具（例如 AWS Glue、DataBrew、运行在 Amazon EMR 上的 Spark、SageMaker Data Wrangler）转换数据
使用 AWS 工具（例如 SageMaker 特征存放区）创建和管理特征
使用 AWS 服务（例如 SageMaker Ground Truth、Amazon Mechanical Turk）验证和标注数据

任务 1.3：确保数据完整性，以及准备数据用于建模

掌握以下知识：

数字、文本和图像数据的预训练偏差指标（例如，类不平衡 [CI]、标签比例差异 [DPL]）
解决数字、文本和图像数据集中 CI 的策略（例如，合成数据生成、重新采样）
加密数据的技术
数据分类、匿名化和掩蔽
合规性要求的影响（例如，个人身份信息 [PII]、受保护的健康信息 [PHI]、数据驻留）

具备以下技能：

验证数据质量（例如，使用 DataBrew 和 AWS Glue 数据质量自动监测功能）
使用 AWS 工具（例如 SageMaker Clarify）识别数据中的偏差来源（例如，选择偏差、测量偏差）并采取缓解措施
准备数据以减少预测偏差（例如，使用数据集拆分、随机排列和扩充）
配置数据以加载到模型训练资源（例如，Amazon EFS、Amazon FSx）中

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

AWS Certified Machine Learning Engineer - Associate (MLA-C01)

内容领域 2：ML 模型开发