콘텐츠 도메인 1: 데이터 수집 및 변환
작업 1.1: 데이터 수집 수행
기술 1.1.1: 스트리밍 소스에서 데이터 읽기(예: Amazon Kinesis, Amazon Managed Streaming for Apache Kafka(Amazon MSK), Amazon DynamoDB Streams, AWS Database Migration Service(AWS DMS), AWS Glue, Amazon Redshift)
기술 1.1.2: 배치 소스에서 데이터 읽기(예: Amazon S3, AWS Glue, Amazon EMR, AWS DMS, Amazon Redshift, AWS Lambda, Amazon AppFlow)
기술 1.1.3: 배치 수집을 위한 적절한 구성 옵션 구현
기술 1.1.4: 데이터 API 사용
기술 1.1.5: Amazon EventBridge, Apache Airflow 또는 작업 및 크롤러에 대한 시간 기반 일정을 사용하여 스케줄러 설정
기술 1.1.6: 이벤트 트리거 설정(예: Amazon S3 이벤트 알림, EventBridge)
기술 1.1.7: Kinesis에서 Lambda 함수 호출
기술 1.1.8: 데이터 소스에 연결할 수 있도록 IP 주소에 대한 허용 목록 만들기
기술 1.1.9: 제한 구현 및 속도 제한 극복(예: DynamoDB, Amazon RDS, Kinesis)
기술 1.1.10: 스트리밍 데이터 배포를 위한 팬인 및 팬아웃 관리
기술 1.1.11: 데이터 수집 파이프라인의 반복 재생 가능성 설명
기술 1.1.12: 스테이트풀 및 스테이트리스 데이터 트랜잭션 정의
작업 1.2: 데이터 변환 및 처리
기술 1.2.1: 성능 요구 사항에 맞게 컨테이너 사용 최적화(예: Amazon Elastic Kubernetes Service(Amazon EKS), Amazon Elastic Container Service(Amazon ECS))
기술 1.2.2: 다양한 데이터 소스에 연결(예: Java Database Connectivity(JDBC), Open Database Connectivity(ODBC))
기술 1.2.3: 여러 소스의 데이터 통합
기술 1.2.4: 데이터 처리 중 비용 최적화
기술 1.2.5: 요구 사항에 따라 데이터 변환 서비스 구현(예: Amazon EMR, AWS Glue, Lambda, Amazon Redshift)
기술 1.2.6: 형식 간 데이터 변환(예: .csv에서 Apache Parquet으로 변환)
기술 1.2.7: 일반적인 변환 실패 및 성능 문제를 해결하고 디버깅 수행
기술 1.2.8: AWS 서비스를 사용하여 다른 시스템에서 데이터를 사용할 수 있도록 데이터 API 만들기
기술 1.2.9: 데이터의 볼륨, 속도 및 다양성 정의(예: 정형 데이터, 비정형 데이터)
기술 1.2.10: 데이터 처리를 위한 대규모 언어 모델(LLM) 통합
작업 1.3: 데이터 파이프라인 오케스트레이션
기술 1.3.1: 오케스트레이션 서비스를 사용하여 데이터 ETL 파이프라인의 워크플로 구축(예: Lambda, EventBridge, Amazon Managed Workflows for Apache Airflow(Amazon MWAA), AWS Step Functions, AWS Glue 워크플로)
기술 1.3.2: 성능, 가용성, 확장성, 복원성 및 내결함성이 우수한 데이터 파이프라인 구축
기술 1.3.3: 서버리스 워크플로 구현 및 유지 관리
기술 1.3.4: 알림 서비스를 사용하여 알림 전송(예: Amazon Simple Notification Service(Amazon SNS), Amazon Simple Queue Service(Amazon SQS))
작업 1.4: 프로그래밍 개념 적용
기술 1.4.1: 코드 최적화를 통해 데이터를 수집하고 변환 런타임 단축
기술 1.4.2: 동시성 및 성능 요구 사항을 충족하도록 Lambda 함수 구성
기술 1.4.3: 데이터 엔지니어링을 위한 프로그래밍 언어 및 프레임워크 사용(예: Python, SQL, Scala, R, Java, Bash, PowerShell)
기술 1.4.4: 데이터 엔지니어링에 소프트웨어 엔지니어링 모범 사례 사용(예: 버전 제어, 테스트, 로깅, 모니터링)
기술 1.4.5: 코드형 인프라(IaC)를 사용하여 데이터 엔지니어링 솔루션 배포
기술 1.4.6: AWS Serverless Application Model(AWS SAM)을 사용하여 서버리스 데이터 파이프라인 패키징 및 배포(예: Lambda 함수, Step Functions, Amazon DynamoDB 테이블)
기술 1.4.7: Lambda 함수 내에서 스토리지 볼륨 사용 및 탑재
기술 1.4.8: 반복 가능한 리소스 배포를 위해 코드형 인프라(IaC) 사용(예: AWS CloudFormation 및 AWS Cloud Development Kit(AWS CDK))
기술 1.4.9: 지속적 통합 및 지속적 전달(CI/CD) 설명(데이터 파이프라인의 구현, 테스트 및 배포)
기술 1.4.10: 분산 컴퓨팅 정의
기술 1.4.11: 데이터 구조 및 알고리즘 설명(예: 그래프 데이터 구조 및 트리 데이터 구조)