内容领域 2:数据存储管理
任务 2.1:选择数据存储
技能 2.1.1:根据特定成本和性能要求实施相应的存储服务(例如,Amazon Redshift、Amazon EMR、AWS Lake Formation、Amazon RDS、Amazon DynamoDB、Amazon Kinesis Data Streams、Amazon Managed Streaming for Apache Kafka [Amazon MSK])。
技能 2.1.2:根据特定访问模式和要求配置相应的存储服务(例如,Amazon Redshift、Amazon EMR、Lake Formation、Amazon RDS、DynamoDB)。
技能 2.1.3:根据相应的使用案例应用存储服务(例如,对 Amazon Aurora PostgreSQL 使用分层可导航小世界网络 [HNSW] 等索引算法,以及使用 Amazon MemoryDB 实现快速键/值对访问)。
技能 2.1.4:将迁移工具集成到数据处理系统(例如,AWS Transfer Family)。
技能 2.1.5:实施数据迁移或远程访问方法(例如,Amazon Redshift 联合查询、Amazon Redshift 实体化视图、Amazon Redshift Spectrum)。
技能 2.1.6:管理锁定来防止访问数据(例如,Amazon Redshift、Amazon RDS)。
技能 2.1.7:管理开源表格式(例如 Apache Iceberg)。
技能 2.1.8:描述向量索引类型(例如 HNSW、IVF)。
任务 2.2: 了解数据编目系统
技能 2.2.1:通过数据目录使用数据来源中的数据。
技能 2.2.2:构建和引用技术数据目录(例如,AWS Glue Data Catalog、Apache Hive 元存储)。
技能 2.2.3:查找架构并使用 AWS Glue 爬网程序填充数据目录。
技能 2.2.4:将分区与数据目录同步。
技能 2.2.5:创建新的源或目标连接进行编目(例如,AWS Glue)。
技能 2.2.6:创建和管理企业数据目录(例如,Amazon SageMaker Catalog)。
任务 2.3:管理数据的生命周期
技能 2.3.1:执行加载和卸载操作,在 Amazon S3 和 Amazon Redshift 之间移动数据。
技能 2.3.2:管理 S3 生命周期策略来更改 S3 数据的存储层。
技能 2.3.3:使用 S3 生命周期策略,让数据在到达特定期限时过期。
技能 2.3.4:管理 S3 版本控制和 DynamoDB TTL。
技能 2.3.5:删除数据来满足业务和法律要求。
技能 2.3.6:使用相应的韧性和可用性功能保护数据。
任务 2.4:设计数据模型和架构演变
技能 2.4.1:为 Amazon Redshift、DynamoDB 和 Lake Formation 设计架构。
技能 2.4.2:解决数据特性变化问题。
技能 2.4.3:执行架构转换(例如,使用 AWS Schema Conversion Tool [AWS SCT] 和 AWS Database Migration Service [AWS DMS] 架构转换)。
技能 2.4.4:使用 AWS 工具(例如,Amazon SageMaker ML Lineage Tracking 和 Amazon SageMaker Catalog)确定数据血统。
技能 2.4.5:描述索引编制、分区策略、压缩和其他数据优化技术的最佳实践。
技能 2.4.6:描述向量化概念(例如,Amazon Bedrock 知识库)。