内容领域 2:数据存储管理 - AWS Certified Data Engineer

内容领域 2:数据存储管理

任务 2.1:选择数据存储

  • 技能 2.1.1:根据特定成本和性能要求实施相应的存储服务(例如,Amazon Redshift、Amazon EMR、AWS Lake Formation、Amazon RDS、Amazon DynamoDB、Amazon Kinesis Data Streams、Amazon Managed Streaming for Apache Kafka [Amazon MSK])。

  • 技能 2.1.2:根据特定访问模式和要求配置相应的存储服务(例如,Amazon Redshift、Amazon EMR、Lake Formation、Amazon RDS、DynamoDB)。

  • 技能 2.1.3:根据相应的使用案例应用存储服务(例如,对 Amazon Aurora PostgreSQL 使用分层可导航小世界网络 [HNSW] 等索引算法,以及使用 Amazon MemoryDB 实现快速键/值对访问)。

  • 技能 2.1.4:将迁移工具集成到数据处理系统(例如,AWS Transfer Family)。

  • 技能 2.1.5:实施数据迁移或远程访问方法(例如,Amazon Redshift 联合查询、Amazon Redshift 实体化视图、Amazon Redshift Spectrum)。

  • 技能 2.1.6:管理锁定来防止访问数据(例如,Amazon Redshift、Amazon RDS)。

  • 技能 2.1.7:管理开源表格式(例如 Apache Iceberg)。

  • 技能 2.1.8:描述向量索引类型(例如 HNSW、IVF)。

任务 2.2: 了解数据编目系统

  • 技能 2.2.1:通过数据目录使用数据来源中的数据。

  • 技能 2.2.2:构建和引用技术数据目录(例如,AWS Glue Data Catalog、Apache Hive 元存储)。

  • 技能 2.2.3:查找架构并使用 AWS Glue 爬网程序填充数据目录。

  • 技能 2.2.4:将分区与数据目录同步。

  • 技能 2.2.5:创建新的源或目标连接进行编目(例如,AWS Glue)。

  • 技能 2.2.6:创建和管理企业数据目录(例如,Amazon SageMaker Catalog)。

任务 2.3:管理数据的生命周期

  • 技能 2.3.1:执行加载和卸载操作,在 Amazon S3 和 Amazon Redshift 之间移动数据。

  • 技能 2.3.2:管理 S3 生命周期策略来更改 S3 数据的存储层。

  • 技能 2.3.3:使用 S3 生命周期策略,让数据在到达特定期限时过期。

  • 技能 2.3.4:管理 S3 版本控制和 DynamoDB TTL。

  • 技能 2.3.5:删除数据来满足业务和法律要求。

  • 技能 2.3.6:使用相应的韧性和可用性功能保护数据。

任务 2.4:设计数据模型和架构演变

  • 技能 2.4.1:为 Amazon Redshift、DynamoDB 和 Lake Formation 设计架构。

  • 技能 2.4.2:解决数据特性变化问题。

  • 技能 2.4.3:执行架构转换(例如,使用 AWS Schema Conversion Tool [AWS SCT] 和 AWS Database Migration Service [AWS DMS] 架构转换)。

  • 技能 2.4.4:使用 AWS 工具(例如,Amazon SageMaker ML Lineage Tracking 和 Amazon SageMaker Catalog)确定数据血统。

  • 技能 2.4.5:描述索引编制、分区策略、压缩和其他数据优化技术的最佳实践。

  • 技能 2.4.6:描述向量化概念(例如,Amazon Bedrock 知识库)。