데이터 엔지니어링 팀 비즈니스 분석 팀 데이터 과학 팀(모델 배포 결정)

기술 평가

기술 평가는 회사가 보유한 현재 기술 역량의 맵을 제공하기 때문에 중요합니다. 평가에는 데이터 거버넌스, 데이터 수집, 데이터 변환, 데이터 공유, 기계 학습(ML) 플랫폼, 프로세스 및 자동화가 포함됩니다.

다음은 기술 평가 중에 팀별로 물어볼 수 있는 질문 예제입니다. 컨텍스트에 따라 질문을 추가할 수 있습니다.

데이터 엔지니어링 팀

팀의 데이터 수집과 관련된 현재 과제는 무엇인가요?
수집에 사용할 수 없지만 팀에 필요한 외부 또는 내부 데이터 소스가 있나요? 왜 사용할 수 없나요?
어떤 유형의 데이터 소스(예: MySQL 데이터베이스, Salesforce API, 수신된 파일, 웹 사이트 탐색 데이터)에서 데이터를 수집하나요?
새 데이터 소스에서 데이터를 수집하는 데 얼마나 걸리나요?
새 소스에서 데이터를 수집하는 프로세스가 자동화되어 있나요?
개발 팀이 애플리케이션에서 분석을 위해 트랜잭션 데이터를 게시하는 작업이 얼마나 쉬운가요?
데이터 소스에서 전체 로드 또는 증분 로드(배치 또는 마이크로 배치 단위)를 위한 도구가 있나요?
데이터베이스에서 지속적으로 로드하기 위한 변경 데이터 캡처(CDC) 도구가 있나요?
데이터 수집을 위한 데이터 스트리밍 옵션이 있나요?
배치 및 실시간 데이터에 대한 데이터 변환을 어떻게 수행하나요?
데이터 변환 워크플로의 오케스트레이션을 어떻게 관리하나요?
데이터 검색 및 카탈로그 작성, 데이터 수집, 데이터 변환, 비즈니스 분석가 지원, 데이터 과학자 지원, 데이터 거버넌스, 팀 및 사용자 교육 등 가장 자주 수행하는 활동은 무엇인가요?
데이터세트가 생성되면 데이터 개인 정보 보호를 위해 어떻게 분류되나요? 내부 소비자에게 의미 있도록 정리하려면 어떻게 해야 하나요?
데이터 거버넌스 및 데이터 관리는 중앙 집중식인가요? 아니면 분산형인가요?
데이터 거버넌스를 적용하려면 어떻게 해야 하나요? 자동화된 프로세스가 있나요?
파이프라인의 각 단계(데이터 수집, 데이터 처리, 데이터 공유 및 데이터 사용)에서 데이터 소유자 및 관리자는 누구인가요? 소유자와 관리자를 결정하기 위한 데이터 도메인 개념이 있나요?
액세스 제어를 통해 조직 내에서 데이터세트를 공유할 경우 주요 과제는 무엇인가요?
코드형 인프라(IaC)를 사용하여 데이터 파이프라인을 배포하고 관리하나요?
데이터 레이크 전략이 있나요?
- 데이터 레이크가 조직 전체에 분산되어 있나요? 아니면 중앙 집중화되어 있나요?
데이터 카탈로그는 어떻게 구성되나요? 회사 전체인가요 아니면 영역별인가요?
데이터 레이크하우스 접근 방식이 마련되어 있나요?
데이터 메시 개념을 사용하고 있거나 사용할 계획인가요?

AWS Well-Architected Framework Data Analytics Lens를 사용하여 이러한 질문을 보완할 수 있습니다.

비즈니스 분석 팀

작업에 사용할 수 있는 데이터의 다음 특성을 어떻게 설명할 수 있나요?
- 정리
- 화질
- 분류
- 메타데이터
- 비즈니스 의미
팀이 도메인에 있는 데이터세트의 비즈니스 용어집 정의에 참여하나요?
필요한 시점에 작업을 수행하는 데 필요한 데이터가 없으면 어떤 영향이 있나요?
데이터에 액세스할 수 없거나 데이터를 얻는 데 너무 오래 걸리는 시나리오에 대한 예가 있나요? 필요한 데이터를 얻는 데 얼마나 걸리나요?
기술 문제나 처리 시간으로 인해 필요한 것보다 작은 데이터세트를 얼마나 자주 사용하나요?
필요한 규모와 도구를 갖춘 샌드박스 환경이 있나요?
A/B 테스트를 수행하여 가설을 검증할 수 있나요?
작업을 수행하는 데 필요한 도구가 누락되었나요?
- 어떤 유형의 도구인가요?
- 왜 사용할 수 없나요?
수행할 시간이 없는 중요한 활동이 있나요?
시간을 가장 많이 소비하는 활동은 무엇인가요?
비즈니스 보기는 어떻게 새로 고쳐지나요?
- 자동으로 예약되고 관리되나요?
얻는 데이터보다 최신 데이터가 필요한 시나리오는 무엇인가요?
분석을 공유하려면 어떻게 해야 하나요? 공유에 사용하는 도구 및 프로세스는 무엇인가요?
새 데이터 제품을 생성하여 다른 팀에서 사용할 수 있도록 하는 경우가 많나요?
- 다른 비즈니스 영역 또는 회사 전체에서 데이터 제품을 공유하는 프로세스는 무엇인가요?

데이터 과학 팀(모델 배포 결정)

작업에 사용할 수 있는 데이터의 다음 특성을 어떻게 설명할 수 있나요?
- 정리
- 화질
- 분류
- 메타데이터
- 의미
기계 학습(ML) 모델을 훈련, 테스트 및 배포하기 위한 자동화된 도구가 있나요?
ML 모델 생성 및 배포의 각 단계를 수행하기 위한 시스템 크기 옵션이 있나요?
ML 모델은 프로덕션 환경에 어떻게 배치되나요?
새 모델을 배포하는 단계는 무엇인가요? 어떻게 자동화되어 있나요?
배치 및 실시간 데이터를 위해 ML 모델을 훈련, 테스트 및 배포할 구성 요소가 있나요?
모델을 생성하는 데 필요한 데이터를 대표할 만큼 충분히 큰 데이터세트를 사용하고 처리할 수 있나요?
모델을 모니터링하고 재훈련을 위한 조치를 취하려면 어떻게 해야 하나요?
모델이 비즈니스에 미치는 영향을 어떻게 측정하나요?
A/B 테스트를 수행하여 비즈니스 팀에 대한 가설을 검증할 수 있나요?

추가 질문은 AWS Well-Architected Framework Machine Learning Lens를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

비즈니스의 데이터 가용성 평가

비즈니스 목표에 맞게 스토리 조정