콘텐츠 도메인 1: 기계 학습(ML)을 위한 데이터 준비 - AWS Certified Machine Learning Engineer

콘텐츠 도메인 1: 기계 학습(ML)을 위한 데이터 준비

작업 1.1: 데이터를 수집 및 저장

관련 지식:

  • 데이터 형식 및 수집 메커니즘(예: 유효성이 검증된 형식 및 검증되지 않은 형식, Apache Parquet, JSON, CSV, Apache ORC, Apache Avro, RecordIO)

  • 핵심 AWS 데이터 소스 사용 방법(예: Amazon S3, Amazon Elastic File System(Amazon EFS), Amazon FSx for NetApp ONTAP)

  • AWS 스트리밍 데이터 소스를 사용하여 데이터를 수집하는 방법(예: Amazon Kinesis, Apache Flink, Apache Kafka)

  • 사용 사례 및 절충점을 포함한 AWS 스토리지 옵션

관련 기술:

  • 관련 AWS 서비스 옵션(예: Amazon S3 Transfer Acceleration, Amazon EBS 프로비저닝된 IOPS)을 사용하여 스토리지(예: Amazon S3, Amazon Elastic Block Store(Amazon EBS), Amazon EFS, Amazon RDS, Amazon DynamoDB)에서 데이터 추출

  • 데이터 액세스 패턴에 따라 적절한 데이터 형식 선택(예: Parquet, JSON, CSV, ORC)

  • Amazon SageMaker Data Wrangler 및 SageMaker Feature Store로 데이터 수집

  • 여러 소스의 데이터 병합(예: 프로그래밍 기법, AWS Glue, Apache Spark 사용)

  • 용량 및 확장성과 관련된 데이터 수집 및 저장 문제 해결 및 디버깅

  • 비용, 성능, 데이터 구조를 기반으로 초기 스토리지 구성 결정

작업 1.2: 데이터 변환 및 특성 추출 수행

관련 지식:

  • 데이터 정리 및 변환 기법(예: 이상값 감지 및 처리, 누락된 데이터 임퓨팅, 결합, 중복 제거)

  • 특성 추출 기법(예: 데이터 규모 조정 및 표준화, 특성 분할, 비닝, 로그 변환, 정규화)

  • 인코딩 기법(예: 원핫 인코딩, 바이너리 인코딩, 레이블 인코딩, 토큰화)

  • 데이터 및 특성을 탐색, 시각화 또는 변환하는 도구(예: SageMaker Data Wrangler, AWS Glue, AWS Glue DataBrew)

  • 스트리밍 데이터를 변환하는 서비스(예: AWS Lambda, Spark)

  • 레이블이 지정된 고품질 데이터세트를 만들기하는 데이터 주석 및 레이블링 서비스

관련 기술:

  • AWS 도구를 사용하여 데이터 변환(예: AWS Glue, DataBrew, Amazon EMR에서 실행되는 Spark, SageMaker Data Wrangler)

  • AWS 도구를 사용하여 특성 만들기 및 관리(예: SageMaker Feature Store)

  • AWS 서비스를 사용하여 데이터 유효성 검사 및 레이블링(예: SageMaker Ground Truth, Amazon Mechanical Turk)

작업 1.3: 데이터 무결성을 보장하고 모델링을 위한 데이터 준비

관련 지식:

  • 숫자, 텍스트 및 이미지 데이터에 대한 편향 지표 사전 훈련(예: 클래스 불균형(CI), 레이블 비율 차이(DPL))

  • 숫자, 텍스트 및 이미지 데이터세트에서 CI를 해결하기 위한 전략(예: 합성 데이터 생성, 리샘플링)

  • 데이터 암호화 기법

  • 데이터 분류, 익명화 및 마스킹

  • 규정 준수 요구 사항의 의미(예: 개인 식별 정보(PII), 개인 건강 정보(PHI), 데이터 레지던시)

관련 기술:

  • 데이터 품질 유효성 검사(예: DataBrew 및 AWS Glue Data Quality 사용)

  • AWS 도구(예: SageMaker Clarify)를 사용하여 데이터의 편향 소스(예: 선택 편향, 측정 편향) 파악 및 완화

  • 예측 편향을 줄이기 위한 데이터 준비(예: 데이터세트 분할, 셔플링 및 보강 사용)

  • 모델 훈련 리소스에 로드할 데이터 구성(예: Amazon EFS, Amazon FSx)