View a markdown version of this page

콘텐츠 도메인 1: 기계 학습(ML)을 위한 데이터 준비 - AWS Certified Machine Learning Engineer - Associate

작업 1.1: 데이터를 수집 및 저장 작업 1.2: 데이터 변환 및 특성 추출 수행 작업 1.3: 데이터 무결성을 보장하고 모델링을 위한 데이터 준비

콘텐츠 도메인 1: 기계 학습(ML)을 위한 데이터 준비

작업

작업 1.1: 데이터를 수집 및 저장
작업 1.2: 데이터 변환 및 특성 추출 수행
작업 1.3: 데이터 무결성을 보장하고 모델링을 위한 데이터 준비

작업 1.1: 데이터를 수집 및 저장

관련 지식:

데이터 형식 및 수집 메커니즘(예: 유효성이 검증된 형식 및 검증되지 않은 형식, Apache Parquet, JSON, CSV, Apache ORC, Apache Avro, RecordIO)
핵심 AWS 데이터 소스 사용 방법(예: Amazon S3, Amazon EFS, Amazon FSx for NetApp ONTAP)
AWS 스트리밍 데이터 소스를 사용하여 데이터를 수집하는 방법(예: Amazon Kinesis, Apache Flink, Apache Kafka)
사용 사례 및 절충점을 포함한 AWS 스토리지 옵션

관련 기술:

관련 AWS 서비스 옵션(예: Amazon S3 Transfer Acceleration, Amazon EBS 프로비저닝된 IOPS)을 사용하여 스토리지(예: Amazon S3, Amazon EBS, Amazon EFS, Amazon RDS, Amazon DynamoDB)에서 데이터 추출
데이터 액세스 패턴에 따라 적절한 데이터 형식 선택(예: Parquet, JSON, CSV, ORC)
Amazon SageMaker Data Wrangler 및 SageMaker Feature Store로 데이터 수집
여러 소스의 데이터 병합(예: 프로그래밍 기법, AWS Glue, Apache Spark 사용)
용량 및 확장성과 관련된 데이터 수집 및 저장 문제 해결 및 디버깅
비용, 성능, 데이터 구조를 기반으로 초기 스토리지 구성 결정

작업 1.2: 데이터 변환 및 특성 추출 수행

관련 지식:

데이터 정리 및 변환 기법(예: 이상값 감지 및 처리, 누락된 데이터 임퓨팅, 결합, 중복 제거)
특성 추출 기법(예: 데이터 규모 조정 및 표준화, 특성 분할, 비닝, 로그 변환, 정규화)
인코딩 기법(예: 원핫 인코딩, 바이너리 인코딩, 레이블 인코딩, 토큰화)
데이터 및 특성을 탐색, 시각화 또는 변환하는 도구(예: SageMaker Data Wrangler, AWS Glue, AWS Glue DataBrew)
스트리밍 데이터를 변환하는 서비스(예: AWS Lambda, Spark)
레이블이 지정된 고품질 데이터세트를 만들기하는 데이터 주석 및 레이블링 서비스

관련 기술:

AWS 도구를 사용하여 데이터 변환(예: AWS Glue, DataBrew, Amazon EMR에서 실행되는 Spark, SageMaker Data Wrangler)
AWS 도구를 사용하여 특성 만들기 및 관리(예: SageMaker Feature Store)
AWS 서비스를 사용하여 데이터 유효성 검사 및 레이블링(예: SageMaker Ground Truth, Amazon Mechanical Turk)

작업 1.3: 데이터 무결성을 보장하고 모델링을 위한 데이터 준비

관련 지식:

숫자, 텍스트 및 이미지 데이터에 대한 편향 지표 사전 훈련(예: 클래스 불균형(CI), 레이블 비율 차이(DPL))
숫자, 텍스트 및 이미지 데이터세트에서 CI를 해결하기 위한 전략(예: 합성 데이터 생성, 리샘플링)
데이터 암호화 기법
데이터 분류, 익명화 및 마스킹
규정 준수 요구 사항의 의미(예: 개인 식별 정보(PII), 개인 건강 정보(PHI), 데이터 레지던시)

관련 기술:

데이터 품질 유효성 검사(예: DataBrew 및 AWS Glue Data Quality 사용)
AWS 도구(예: SageMaker Clarify)를 사용하여 데이터의 편향 소스(예: 선택 편향, 측정 편향) 파악 및 완화
예측 편향을 줄이기 위한 데이터 준비(예: 데이터세트 분할, 셔플링 및 보강 사용)
모델 훈련 리소스에 로드할 데이터 구성(예: Amazon EFS, Amazon FSx)

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

AWS Certified Machine Learning Engineer - Associate(MLA-C01)

콘텐츠 도메인 2: ML 모델 개발