

# 内容领域 3： 数据操作和支持
<a name="data-engineer-associate-01-domain3"></a>

**Topics**
+ [任务 3.1： 使用 AWS 服务自动处理数据](#data-engineer-associate-01-domain3-task1)
+ [任务 3.2： 使用 AWS 服务分析数据](#data-engineer-associate-01-domain3-task2)
+ [任务 3.3： 维护和监控数据管道](#data-engineer-associate-01-domain3-task3)
+ [任务 3.4： 确保数据质量](#data-engineer-associate-01-domain3-task4)

## 任务 3.1： 使用 AWS 服务自动处理数据
<a name="data-engineer-associate-01-domain3-task1"></a>
+ 技能 3.1.1： 编排数据管道（例如，Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、AWS Step Functions）。
+ 技能 3.1.2： Amazon 托管工作流故障排除。
+ 技能 3.1.3： 通过代码调用 SDK 来访问 Amazon 功能。
+ 技能 3.1.4： 使用 AWS 服务功能处理数据（例如，Amazon EMR、Amazon Redshift、AWS Glue）。
+ 技能 3.1.5： 使用和维护数据 API。
+ 技能 3.1.6： 准备数据用于转换（例如 AWS Glue DataBrew 和 Amazon SageMaker 融通式合作开发工作室）。
+ 技能 3.1.7： 查询数据（例如，Amazon Athena）。
+ 技能 3.1.8： 使用 AWS Lambda 自动处理数据。
+ 技能 3.1.9： 管理事件和调度器（例如，Amazon EventBridge）。

## 任务 3.2： 使用 AWS 服务分析数据
<a name="data-engineer-associate-01-domain3-task2"></a>
+ 技能 3.2.1： 使用 AWS 服务和工具（例如 DataBrew、Amazon QuickSight）对数据进行可视化。
+ 技能 3.2.2： 验证和清理数据（例如，Lambda、Athena、QuickSight、Jupyter Notebooks、Amazon SageMaker Data Wrangler）。
+ 技能 3.2.3： 在 Amazon Redshift 和 Athena 中使用 SQL 来查询数据或创建视图。
+ 技能 3.2.4： 使用通过 Apache Spark 查找数据的 Athena 笔记本。
+ 技能 3.2.5： 描述预置服务和无服务器服务的利弊权衡。
+ 技能 3.2.6： 定义数据聚合、滚动平均值、分组和透视。

## 任务 3.3： 维护和监控数据管道
<a name="data-engineer-associate-01-domain3-task3"></a>
+ 技能 3.3.1： 提取日志用于审计。
+ 技能 3.3.2： 部署日志记录和监控解决方案以便进行审计和追溯。
+ 技能 3.3.3： 在监控期间使用通知发送警报。
+ 技能 3.3.4： 解决性能问题。
+ 技能 3.3.5： 使用 AWS CloudTrail 跟踪 API 调用。
+ 技能 3.3.6： 对管道进行故障排除和维护（例如，AWS Glue、Amazon EMR）。
+ 技能 3.3.7： 使用 Amazon CloudWatch Logs 记录应用程序数据（侧重于配置和自动化）。
+ 技能 3.3.8： 使用 AWS 服务（例如，Athena、Amazon EMR、Amazon OpenSearch Service、CloudWatch Logs Insights、大数据应用程序日志）分析日志。

## 任务 3.4： 确保数据质量
<a name="data-engineer-associate-01-domain3-task4"></a>
+ 技能 3.4.1： 在处理数据时，运行数据质量检查（例如，检查空字段）。
+ 技能 3.4.2： 定义数据质量规则（例如，DataBrew）。
+ 技能 3.4.3： 调查数据一致性（例如，DataBrew）。
+ 技能 3.4.4： 描述数据采样技术。
+ 技能 3.4.5： 实施数据偏斜机制。