内容领域 3:数据操作和支持 - AWS Certified Data Engineer

内容领域 3:数据操作和支持

任务 3.1:使用 AWS 服务自动处理数据

  • 技能 3.1.1:编排数据管道(例如,Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、AWS Step Functions)。

  • 技能 3.1.2:Amazon 托管工作流故障排除。

  • 技能 3.1.3:通过代码调用 SDK 来访问 Amazon 功能。

  • 技能 3.1.4:使用 AWS 服务功能处理数据(例如,Amazon EMR、Amazon Redshift、AWS Glue)。

  • 技能 3.1.5:使用和维护数据 API。

  • 技能 3.1.6:准备数据用于转换(例如 AWS Glue DataBrew 和 Amazon SageMaker 融通式合作开发工作室)。

  • 技能 3.1.7:查询数据(例如,Amazon Athena)。

  • 技能 3.1.8:使用 AWS Lambda 自动处理数据。

  • 技能 3.1.9:管理事件和调度器(例如,Amazon EventBridge)。

任务 3.2:使用 AWS 服务分析数据

  • 技能 3.2.1:使用 AWS 服务和工具(例如 DataBrew、Amazon Quick Suite (前称 Amazon QuickSight))对数据进行可视化。

  • 技能 3.2.2:验证和清理数据(例如,Lambda、Athena、QuickSight、Jupyter Notebooks、Amazon SageMaker Data Wrangler)。

  • 技能 3.2.3:在 Amazon Redshift 和 Athena 中使用 SQL 来查询数据或创建视图。

  • 技能 3.2.4:使用通过 Apache Spark 查找数据的 Athena 笔记本。

  • 技能 3.2.5:描述预置服务和无服务器服务的利弊权衡。

  • 技能 3.2.6:定义数据聚合、滚动平均值、分组和透视。

任务 3.3:维护和监控数据管道

  • 技能 3.3.1:提取日志用于审计。

  • 技能 3.3.2:部署日志记录和监控解决方案以便进行审计和追溯。

  • 技能 3.3.3:在监控期间使用通知发送警报。

  • 技能 3.3.4:解决性能问题。

  • 技能 3.3.5:使用 AWS CloudTrail 跟踪 API 调用。

  • 技能 3.3.6:对管道进行故障排除和维护(例如,AWS Glue、Amazon EMR)。

  • 技能 3.3.7:使用 Amazon CloudWatch Logs 记录应用程序数据(侧重于配置和自动化)。

  • 技能 3.3.8:使用 AWS 服务(例如,Athena、Amazon EMR、Amazon OpenSearch Service、CloudWatch Logs Insights、大数据应用程序日志)分析日志。

任务 3.4:确保数据质量

  • 技能 3.4.1:在处理数据时,运行数据质量检查(例如,检查空字段)。

  • 技能 3.4.2:定义数据质量规则(例如,DataBrew)。

  • 技能 3.4.3:调查数据一致性(例如,DataBrew)。

  • 技能 3.4.4:描述数据采样技术。

  • 技能 3.4.5:实施数据偏斜机制。