기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
기술 평가
기술 평가는 회사가 보유한 현재 기술 역량의 맵을 제공하기 때문에 중요합니다. 이 평가에는 데이터 거버넌스, 데이터 수집, 데이터 변환, 데이터 공유, 기계 학습(ML) 플랫폼, 프로세스 및 자동화가 포함됩니다.
다음은 팀별로 기술 평가 중에 질문할 수 있는 질문의 예입니다. 컨텍스트에 따라 질문을 추가할 수 있습니다.
데이터 엔지니어링 팀
-
팀의 데이터 수집과 관련된 현재 문제는 무엇입니까?
-
수집에 사용할 수 없는 외부 또는 내부 데이터 소스가 팀에 필요합니까? 사용할 수 없는 이유는 무엇인가요?
-
어떤 유형의 데이터 소스(예: MySQL 데이터베이스, Salesforce API, 수신된 파일, 웹 사이트 탐색 데이터)에서 데이터를 수집하나요?
-
새 데이터 소스에서 데이터를 수집하는 데 얼마나 걸리나요?
-
새 소스에서 데이터를 수집하는 프로세스가 자동화되어 있습니까?
-
개발 팀이 애플리케이션에서 분석을 위해 트랜잭션 데이터를 게시하는 것이 얼마나 쉬운가요?
-
데이터 소스에서 전체 로드 또는 증분 로드(배치 또는 마이크로 배치)를 위한 도구가 있습니까?
-
데이터베이스에서 지속적으로 로드할 수 있는 변경 데이터 캡처(CDC) 도구가 있습니까?
-
데이터 수집을 위한 데이터 스트리밍 옵션이 있습니까?
-
배치 및 실시간 데이터에 대한 데이터 변환을 어떻게 수행하나요?
-
데이터 변환 워크플로의 오케스트레이션을 어떻게 관리하나요?
-
데이터 검색 및 카탈로그 작성, 데이터 수집, 데이터 변환, 비즈니스 분석가 지원, 데이터 과학자 지원, 데이터 거버넌스, 팀 및 사용자 교육 등 가장 자주 수행하는 활동은 무엇입니까?
-
데이터 세트가 생성되면 데이터 개인 정보 보호를 위해 어떻게 분류되나요? 내부 소비자에게 의미 있도록 정리하려면 어떻게 해야 하나요?
-
데이터 거버넌스 및 데이터 관리는 중앙 집중화됩니까, 아니면 분산화됩니까?
-
데이터 거버넌스를 적용하려면 어떻게 해야 하나요? 자동화된 프로세스가 있습니까?
-
데이터 수집, 데이터 처리, 데이터 공유, 데이터 사용 등 파이프라인의 각 단계에서 데이터 소유자 및 관리자는 누구입니까? 소유자와 관리자를 결정하기 위한 데이터 도메인 개념이 있나요?
-
액세스 제어를 통해 조직 내에서 데이터 세트를 공유하는 데 있어 주요 과제는 무엇입니까?
-
코드형 인프라(IaC)를 사용하여 데이터 파이프라인을 배포하고 관리하나요?
-
데이터 레이크 전략이 있습니까?
-
데이터 레이크가 조직 전체에 분산되어 있습니까, 아니면 중앙 집중화되어 있습니까?
-
-
데이터 카탈로그는 어떻게 구성되어 있나요? 회사 전체입니까, 아니면 지역별입니까?
-
데이터 레이크하우스 접근 방식이 마련되어 있습니까?
-
데이터 메시 개념을 사용하거나 사용할 계획입니까?
AWS Well-Architected Framework 데이터 분석 렌즈를 사용하여 이러한 질문을 보완할 수 있습니다.
비즈니스 분석 팀
-
작업에 사용할 수 있는 데이터의 다음 특성을 어떻게 설명하시겠습니까?
-
정리
-
화질
-
분류
-
Metadata
-
비즈니스 의미
-
-
팀이 도메인의 데이터 세트에 대한 비즈니스 용어집 정의에 참여하나요?
-
필요한 시점에 작업을 수행하는 데 필요한 데이터가 없으면 어떤 영향이 있습니까?
-
데이터에 액세스할 수 없거나 데이터를 얻는 데 너무 오래 걸리는 시나리오의 예가 있습니까? 필요한 데이터를 얻는 데 얼마나 걸리나요?
-
기술 문제나 처리 시간으로 인해 필요한 것보다 작은 데이터 세트를 얼마나 자주 사용하십니까?
-
필요한 규모와 도구를 갖춘 샌드박스 환경이 있습니까?
-
A/B 테스트를 수행하여 가설을 검증할 수 있나요?
-
작업을 수행하는 데 필요한 도구가 누락되었습니까?
-
어떤 유형의 도구입니까?
-
사용할 수 없는 이유는 무엇인가요?
-
-
수행할 시간이 없는 중요한 활동이 있나요?
-
시간을 가장 많이 소비하는 활동은 무엇입니까?
-
비즈니스 보기는 어떻게 새로 고쳐집니까?
-
자동으로 예약되고 관리되나요?
-
-
어떤 시나리오에서 얻는 데이터보다 최신 데이터가 필요합니까?
-
분석을 공유하려면 어떻게 해야 하나요? 공유에 사용하는 도구와 프로세스는 무엇입니까?
-
새 데이터 제품을 생성하여 다른 팀에서 사용할 수 있도록 하는 경우가 많습니까?
-
다른 비즈니스 영역 또는 회사 전체에서 데이터 제품을 공유하는 프로세스는 무엇입니까?
-
데이터 과학 팀(모델 배포 결정)
-
작업에 사용할 수 있는 데이터의 다음 특성을 어떻게 설명하시겠습니까?
-
정리
-
화질
-
분류
-
Metadata
-
의미
-
-
기계 학습(ML) 모델을 훈련, 테스트 및 배포하기 위한 자동화된 도구가 있습니까?
-
ML 모델 생성 및 배포의 각 단계를 수행하기 위한 시스템 크기 옵션이 있습니까?
-
ML 모델은 프로덕션 환경에 어떻게 배치되나요?
-
새 모델을 배포하는 단계는 무엇입니까? 얼마나 자동화되어 있습니까?
-
배치 및 실시간 데이터를 위해 ML 모델을 훈련, 테스트 및 배포할 구성 요소가 있습니까?
-
모델을 생성하는 데 필요한 데이터를 나타낼 만큼 충분히 큰 데이터 세트를 사용하고 처리할 수 있습니까?
-
모델을 모니터링하고 재훈련을 위한 조치를 취하려면 어떻게 해야 하나요?
-
모델이 비즈니스에 미치는 영향을 어떻게 측정하나요?
-
A/B 테스트를 수행하여 비즈니스 팀에 대한 가설을 검증할 수 있나요?
추가 질문은 AWS Well-Architected Framework Machine Learning 렌즈를 참조하세요.