内容领域 1:数据摄取和转换
任务 1.1:执行数据摄取
技能 1.1.1:从流数据来源(例如,Amazon Kinesis、Amazon Managed Streaming for Apache Kafka [Amazon MSK]、Amazon DynamoDB Streams、AWS Database Migration Service [AWS DMS]、AWS Glue、Amazon Redshift)读取数据。
技能 1.1.2:从批量数据来源(例如,Amazon S3、AWS Glue、Amazon EMR、AWS DMS、Amazon Redshift、AWS Lambda、Amazon AppFlow)读取数据。
技能 1.1.3:为批量摄取实施相应的配置选项。
技能 1.1.4:使用数据 API。
技能 1.1.5:使用 Amazon EventBridge、Apache Airflow 或基于时间的任务和爬网程序计划,设置调度器。
技能 1.1.6:设置事件触发器(例如,Amazon S3 事件通知、EventBridge)。
技能 1.1.7:从 Kinesis 调用 Lambda 函数。
技能 1.1.8:为 IP 地址创建允许列表来允许连接到数据来源。
技能 1.1.9:实施节流和解决速率限制问题(例如,DynamoDB、Amazon RDS、Kinesis)。
技能 1.1.10:管理流数据分配的扇入和扇出。
技能 1.1.11:描述数据摄取管道的可重放性。
技能 1.1.12:定义有状态和无状态数据事务。
任务 1.2:转换和处理数据
技能 1.2.1:根据性能需求优化容器使用情况(例如,Amazon Elastic Kubernetes Service [Amazon EKS]、Amazon Elastic Container Service [Amazon ECS])。
技能 1.2.2:连接到不同的数据来源(例如,Java 数据库连接 [JDBC]、开放式数据库连接 [ODBC])。
技能 1.2.3:整合来自多个来源的数据。
技能 1.2.4:在处理数据时优化成本。
技能 1.2.5:根据要求实施数据转换服务(例如,Amazon EMR、AWS Glue、Lambda、Amazon Redshift)。
技能 1.2.6:在不同格式之间转换数据(例如,从 .csv 转换到 Apache Parquet)。
技能 1.2.7:对常见的转换失败和性能问题进行故障排除和调试。
技能 1.2.8:创建数据 API,通过 AWS 服务向其他系统提供数据。
技能 1.2.9:定义数据数量、速度和种类(例如,结构化数据、非结构化数据)。
技能 1.2.10:集成大型语言模型 (LLM) 以进行数据处理。
任务 1.3:编排数据管道
技能 1.3.1:使用编排服务为 ETL 数据管道构建工作流(例如,Lambda、EventBridge、Amazon Managed Workflows for Apache Airflow [Amazon MWAA]、AWS Step Functions、AWS Glue 工作流)。
技能 1.3.2:构建数据管道来提高性能、可用性、可扩展性、韧性和容错能力。
技能 1.3.3:实施和维护无服务器工作流。
技能 1.3.4:使用通知服务发送警报(例如,Amazon Simple Notification Service [Amazon SNS]、Amazon Simple Queue Service [Amazon SQS])。
任务 1.4:应用编程概念
技能 1.4.1:优化代码来减少数据摄取和转换的运行时间。
技能 1.4.2:配置 Lambda 函数来满足并发性和性能需求。
技能 1.4.3:使用编程语言和框架(例如 Python、SQL、Scala、R、Java、Bash、PowerShell)完成数据工程任务。
技能 1.4.4:使用软件工程最佳实践(例如,版本控制、测试、记录、监控)完成数据工程任务。
技能 1.4.5:使用基础设施即代码 (IaC) 部署数据工程解决方案。
技能 1.4.6:使用 AWS Serverless Application Model (AWS SAM) 打包和部署无服务器数据管道(例如,Lambda 函数、Step Functions、DynamoDB 表)。
技能 1.4.7:从 Lambda 函数中使用和挂载存储卷。
技能 1.4.8:使用基础设施即代码 (IaC) 进行可重复的资源部署(例如,AWS CloudFormation 和 AWS Cloud Development Kit [AWS CDK])。
技能 1.4.9:描述持续集成和持续交付 (CI/CD)(实施、测试和部署数据管道)。
技能 1.4.10:定义分布式计算。
技能 1.4.11:描述数据结构和算法(例如,图形数据结构和树数据结构)。