1. 데이터 중심 관리 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

1. 데이터 중심 관리

데이터 관리는 훈련, 테스트 및 추론에 사용되는 데이터가 적절하게 관리, 보안 및 검증되었음을 확인하는 사례입니다. 대규모로 모델을 빌드할 때 데이터는 높은 모델 성능을 지원하는 기본적인 요소입니다.

1.1 데이터 리포지토리

데이터 리포지토리에는 데이터를 추적하고 해당 출처를 확인할 수 있는 기능이 필요합니다. 새 데이터가 추가되거나 제거되면 데이터 리포지토리는 특정 시점 복구에서 이러한 변경 사항을 기록합니다. 데이터 리포지토리에서는 레이블 데이터를 추적 및 처리하는 방법과 중간 데이터 아티팩트를 추적하는 방법을 고려해야 합니다.

1.2 다양한 데이터 소스 통합

애플리케이션에 따라 모델을 훈련하려면 많은 소스의 데이터가 필요할 수 있습니다. ML 실무자에게 사용 가능한 데이터 소스와 이러한 소스가 서로 연결되는 방법을 알려주는 매니페스트를 설계하고 유지 관리하는 작업은 모델 빌드에서 매우 중요합니다.

1.3 데이터 스키마 검증

모델 데이터를 공급하려면 훈련 데이터가 동종이어야 합니다. Amazon Simple Storage Service(Amazon S3)와 같은 데이터 레이크 솔루션 또는 문서 데이터 저장소에 저장된 데이터에 대해 변환 또는 기타 탐색 분석이 필요할 수 있습니다.

1.4 데이터 버전 관리 및 리니지

프로덕션에 사용할 수 있는 모델을 훈련할 경우 결과를 재현할 수 있어야 하며 전체 모델 성능을 더 잘 이해할 수 있도록 소거식 연구를 수행할 수 있는 신뢰할 수 있는 방법이 있어야 합니다. 이러한 재현성을 위해 훈련 데이터의 상태를 추적하는 것이 중요합니다. 데이터 버전 제어(DVC)와 같은 도구가 이를 지원할 수 있습니다.

1.5 레이블 지정 워크플로

프로젝트 시작 시 레이블이 지정된 데이터를 사용할 수 없는 경우 종종 레이블이 지정된 데이터를 생성하는 것이 필수 단계이기도 합니다. Amazon SageMaker Ground Truth와 같은 도구는 입력 데이터를 적절하게 체계화해야 하며 정의되고, 이에 대한 테스트된 레이블 지정 작업이 필요합니다. 내부 또는 외부 레이블 지정자와 같은 인력을 사용해야 합니다. 그런 다음 중복 레이블 지정 또는 기계 학습 접근 방식을 사용하여 훈련 데이터세트에서 이상치 또는 오류를 식별하여 데이터를 검증해야 합니다.

1.6 온라인 및 오프라인 특성 스토리지

ML 시스템에는 특성 저장소 또는 특성 및 관련 메타데이터를 위한 중앙 집중식 저장소가 있으므로 특성 또는 모델 입력을 재사용할 수 있습니다. 온라인 또는 오프라인 저장소를 생성할 수 있습니다. 지연 시간이 짧은 실시간 추론 사용 사례에는 온라인 저장소를 사용합니다. 모델 훈련 및 배치 추론에는 오프라인 저장소를 사용합니다.