

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 데이터 전략 프레임워크
<a name="framework"></a>

이 가이드에 제시된 데이터 전략 프레임워크는 다음과 같은 최신 데이터 및 분석 아키텍처 원칙에 기반합니다.

1. **통합되고 비용 효율적이며 확장 가능한 스토리지 계층**을 사용하세요. 이를 통해 모든 데이터 생산자와 소비자가 데이터와 상호 작용할 수 있는 기술적 기능을 갖게 됩니다.

1. **보안은 필수입니다**. 데이터 개인 정보 보호 규칙을 적용하고, 암호화를 통해 데이터 보호를 제공하며, 감사를 활성화하고, 자동화된 규정 준수를 제공하세요.

1. **데이터를 규제하여** 회사에서 공유하세요. 사용자가 필요한 데이터를 찾고 사용할 수 있도록 고유한 데이터 카탈로그와 비즈니스 용어집을 제공하세요.

1. **올바른 작업에 올바른 서비스**를 선택하세요. 구성 요소를 선택할 때 기능, 확장성, 데이터 지연 시간, 서비스를 실행하는 데 필요한 노력, 복원력, 통합 및 자동화를 고려하세요.

1. **인공 지능(AI)과 기계 학습(ML)**을 사용하세요.

1. **비즈니스 인력을 위한 추상화**를 통해 **데이터 문해력**과 도구를 제공하세요.

1. 데이터 이니셔티브의 **가설을 테스트**하고 **결과를 측정**하세요.

데이터 프레임워크는 [먼저 고객에서부터 작업](https://docs.aws.amazon.com/whitepapers/latest/building-cloud-operating-model/step-1.-work-backwards-from-the-customer.html)하는 접근 방식을 사용합니다. Amazon 및 AWS에서 사용되는 이 방법은 5단계를 따릅니다.

1. 회사의 비즈니스 영역에서 사용자를 인터뷰하세요. 데이터 이니셔티브를 통해 해결할 수 있는 비즈니스 문제와 기회를 선택하세요.

1. 비즈니스 영역 내에서 예상되는 비즈니스 성과를 정의하세요.

1. 비즈니스에 가장 큰 영향을 미치는 이니셔티브의 우선순위를 정하세요.

1. 비즈니스 성과를 달성하기 위한 데이터 공유 및 기술 기능을 식별하고 지원 프로젝트에서 그룹화하세요.

1. 데이터 중심 이니셔티브를 활성화하기 위한 역할과 책임을 식별하고 다기능 팀 빌드에 대해 논의하세요.

다음 섹션에서는 다음과 같은 이 프로세스의 기본 단계를 설명합니다.
+ [비즈니스 검색](business-discovery.md)
+ [데이터 가용성 평가](data-availability.md)
+ [기술 평가](technical-assessment.md)
+ [비즈니스 목표에 맞게 스토리 조정](align-stories-goals.md)

# 비즈니스 검색
<a name="business-discovery"></a>

비즈니스 인터뷰를 효과적으로 수행하려면 데이터에 의존하는** **회사의 목표를 상위 수준에서 이해하는 것이 중요합니다. 예를 들어 이러한 목표에는 다음이 포함될 수 있습니다.
+ 비즈니스 민첩성 개선
+ 고급 혁신 지원
+ 고객 중심 문화 구축
+ 시장 점유율 증가
+ 글로벌 시장 진출
+ 새 고객 플랫폼 시작  

회사의 목표를 조정한 후에는 비즈니스 영역의 팀원과 상의해야 합니다. 최소한 회사의 주요 목표에 영향을 미치는 영역에 집중하되 기회가 있는 경우 모든 비즈니스 영역의 팀원과 대화합니다.

이 검색 대화에서 각 사업 영역 또는 사업부(BU)의 목표, 해당 영역을 측정하는 데 사용하는 지표, 데이터 사용량이 목표에 미치는 영향을 알아보고자 합니다. 다음은 질문할 수 있는 몇 가지 예제입니다.
+ BU의 기본 목표는 무엇인가요?
+ BU는 회사의 목표 달성에 어떻게 기여하나요?
+ BU의 주요 프로젝트는 무엇인가요?
+ 각 프로젝트는 데이터에 어떻게 의존하나요?

주요 프로젝트, 일정, 데이터에 의존하는 방식, 회사의 목표에 부합하거나 지원하는 방식에 대한 가시성을 확보하는 것이 중요합니다. 프로젝트의 예로 다음이 포함됩니다.
+ 일관된 옴니채널 상호 작용과 최신 고객 조치 및 문제에 대한 인식 구축을 통해 고객 경험 개선
+ 고객 행동을 기반으로 추천 엔진을 생성하여 전환율 및 참여도 증대
+ 온라인 금융 상품의 경우 시간이 너무 오래 걸리지 않도록 방지하고 고객을 다른 금융 기관에 잃지 않고자 더 빠른 위험 계산을 통해 고객 크레딧 승인
+ 판매 예측 정확도를 높여 공급 손실 감소
+ 사기 감지를 실시간으로 최적화하여 사기 손실 감소

# 비즈니스의 데이터 가용성 평가
<a name="data-availability"></a>

다음과 같은 후속 질문을 사용하여 데이터 가용성의 현재 상태와 BU가 달성하고자 하는 수준 사이의 격차를 파악합니다.
+ 데이터는 프로젝트와 현재 비즈니스 목표를 어떻게 지원하나요?
+ 사용 및 의사 결정에 적합한 데이터를 얻기가 어렵나요?
+ 데이터를 얻는 프로세스는 얼마나 자동화되어 있나요? 관련된 수동 단계가 있다면 무엇인가요?
+ 데이터를 사용할 수 있게 되면 팀이 데이터를 이해하고 사용할 수 있나요? 아니면 데이터를 비즈니스 도메인으로 변환해야 하나요?
+ 비즈니스 결정을 지원하기 위해 적시에 데이터를 수신하나요?
  + 데이터를 더 빠르게 확보하면 비즈니스가 어떻게 개선되나요? 개선을 추진하려면 데이터를 얼마나 빨리 사용할 수 있어야 하나요?
+ 의사 결정권자가 데이터를 누락했나요?
  + 그렇다면 어떤 데이터가 누락되었나요?
  + 이 데이터가 있었다면 어떤 이점이 있었나요?
  + 누락된 데이터로 인해 기본 프로젝트는 어떤 영향을 받나요?
+ 일반 데이터 보호 규정(GDPR) 또는 기타 표준과 같은 규정 준수 규정과 관련된 문제가 있나요?
+ BU에 애플리케이션이 조치를 취할 수 있도록 하는 데 사용할 수 있는 데이터 제품이 있나요?
+ 해당 영역에서 비즈니스를 개선하기 위해 기계 학습 모델을 제공할 수 있나요? 그렇지 않은 경우 다른 BU가 이 영역에서 비즈니스를 지원하나요?
+ 현재 BU에서 사용할 수 없지만 프로젝트를 지원하거나 해당 영역에서 개선을 추진할 수 있는 회사 내 데이터를 알고 있나요?
  + 그것은 무엇인가요?
+ 해당 영역에서 사용할 수 있는 데이터의 품질에 의존하고 있나요?
  + 데이터를 사용하기 전에 팀에서 자체 데이터 정리 프로세스를 수행하나요?
  + 데이터를 사용하기 전에 팀에서 자체 품질 프로세스를 수행하나요?
  + 팀이 데이터 가용성에 대해 작업하고 분석, 보강 및 집계된 비전을 위한 새 데이터 제품을 생성할 때 이러한 제품을 회사의 다른 BU와 공유할 수 있나요?

# 기술 평가
<a name="technical-assessment"></a>

기술 평가는 회사가 보유한 현재 기술 역량의 맵을 제공하기 때문에 중요합니다. 평가에는 데이터 거버넌스, 데이터 수집, 데이터 변환, 데이터 공유, 기계 학습(ML) 플랫폼, 프로세스 및 자동화가 포함됩니다. 

다음은 기술 평가 중에 팀별로 물어볼 수 있는 질문 예제입니다. 컨텍스트에 따라 질문을 추가할 수 있습니다.

## 데이터 엔지니어링 팀
<a name="data-engineering"></a>
+ 팀의 데이터 수집과 관련된 현재 과제는 무엇인가요? 
+ 수집에 사용할 수 없지만 팀에 필요한 외부 또는 내부 데이터 소스가 있나요? 왜 사용할 수 없나요?
+ 어떤 유형의 데이터 소스(예: MySQL 데이터베이스, Salesforce API, 수신된 파일, 웹 사이트 탐색 데이터)에서 데이터를 수집하나요?
+ 새 데이터 소스에서 데이터를 수집하는 데 얼마나 걸리나요?
+ 새 소스에서 데이터를 수집하는 프로세스가 자동화되어 있나요?
+ 개발 팀이 애플리케이션에서 분석을 위해 트랜잭션 데이터를 게시하는 작업이 얼마나 쉬운가요?
+ 데이터 소스에서 전체 로드 또는 증분 로드(배치 또는 마이크로 배치 단위)를 위한 도구가 있나요?
+ 데이터베이스에서 지속적으로 로드하기 위한 변경 데이터 캡처(CDC) 도구가 있나요?
+ 데이터 수집을 위한 데이터 스트리밍 옵션이 있나요?
+ 배치 및 실시간 데이터에 대한 데이터 변환을 어떻게 수행하나요?
+ 데이터 변환 워크플로의 오케스트레이션을 어떻게 관리하나요?
+ 데이터 검색 및 카탈로그 작성, 데이터 수집, 데이터 변환, 비즈니스 분석가 지원, 데이터 과학자 지원, 데이터 거버넌스, 팀 및 사용자 교육 등 가장 자주 수행하는 활동은 무엇인가요?
+ 데이터세트가 생성되면 데이터 개인 정보 보호를 위해 어떻게 분류되나요? 내부 소비자에게 의미 있도록 정리하려면 어떻게 해야 하나요?
+ 데이터 거버넌스 및 데이터 관리는 중앙 집중식인가요? 아니면 분산형인가요?
+ 데이터 거버넌스를 적용하려면 어떻게 해야 하나요? 자동화된 프로세스가 있나요?
+ 파이프라인의 각 단계(데이터 수집, 데이터 처리, 데이터 공유 및 데이터 사용)에서 데이터 소유자 및 관리자는 누구인가요? 소유자와 관리자를 결정하기 위한 데이터 도메인 개념이 있나요?
+ 액세스 제어를 통해 조직 내에서 데이터세트를 공유할 경우 주요 과제는 무엇인가요?
+ 코드형 인프라(IaC)를 사용하여 데이터 파이프라인을 배포하고 관리하나요?
+ 데이터 레이크 전략이 있나요? 
  + 데이터 레이크가 조직 전체에 분산되어 있나요? 아니면 중앙 집중화되어 있나요? 
+ 데이터 카탈로그는 어떻게 구성되나요? 회사 전체인가요 아니면 영역별인가요?
+ 데이터 레이크하우스 접근 방식이 마련되어 있나요?
+ 데이터 메시 개념을 사용하고 있거나 사용할 계획인가요?

[AWS Well-Architected Framework Data Analytics Lens](https://docs.aws.amazon.com/wellarchitected/latest/analytics-lens/analytics-lens.html)를 사용하여 이러한 질문을 보완할 수 있습니다.

## 비즈니스 분석 팀
<a name="business-analysis"></a>
+ 작업에 사용할 수 있는 데이터의 다음 특성을 어떻게 설명할 수 있나요?
  + 정리
  + 화질
  + 분류
  + 메타데이터
  + 비즈니스 의미
+ 팀이 도메인에 있는 데이터세트의 비즈니스 용어집 정의에 참여하나요?
+ 필요한 시점에 작업을 수행하는 데 필요한 데이터가 없으면 어떤 영향이 있나요?
+ 데이터에 액세스할 수 없거나 데이터를 얻는 데 너무 오래 걸리는 시나리오에 대한 예가 있나요? 필요한 데이터를 얻는 데 얼마나 걸리나요?
+ 기술 문제나 처리 시간으로 인해 필요한 것보다 작은 데이터세트를 얼마나 자주 사용하나요?
+ 필요한 규모와 도구를 갖춘 샌드박스 환경이 있나요?
+ A/B 테스트를 수행하여 가설을 검증할 수 있나요?
+ 작업을 수행하는 데 필요한 도구가 누락되었나요?
  + 어떤 유형의 도구인가요?
  + 왜 사용할 수 없나요?
+ 수행할 시간이 없는 중요한 활동이 있나요?
+ 시간을 가장 많이 소비하는 활동은 무엇인가요?
+ 비즈니스 보기는 어떻게 새로 고쳐지나요?
  + 자동으로 예약되고 관리되나요?
+ 얻는 데이터보다 최신 데이터가 필요한 시나리오는 무엇인가요?
+ 분석을 공유하려면 어떻게 해야 하나요? 공유에 사용하는 도구 및 프로세스는 무엇인가요?
+ 새 데이터 제품을 생성하여 다른 팀에서 사용할 수 있도록 하는 경우가 많나요?
  + 다른 비즈니스 영역 또는 회사 전체에서 데이터 제품을 공유하는 프로세스는 무엇인가요?

## 데이터 과학 팀(모델 배포 결정)
<a name="data-science"></a>
+ 작업에 사용할 수 있는 데이터의 다음 특성을 어떻게 설명할 수 있나요?
  + 정리
  + 화질
  + 분류
  + 메타데이터
  + 의미
+ 기계 학습(ML) 모델을 훈련, 테스트 및 배포하기 위한 자동화된 도구가 있나요?
+ ML 모델 생성 및 배포의 각 단계를 수행하기 위한 시스템 크기 옵션이 있나요?
+ ML 모델은 프로덕션 환경에 어떻게 배치되나요?
+ 새 모델을 배포하는 단계는 무엇인가요? 어떻게 자동화되어 있나요?
+ 배치 및 실시간 데이터를 위해 ML 모델을 훈련, 테스트 및 배포할 구성 요소가 있나요? 
+ 모델을 생성하는 데 필요한 데이터를 대표할 만큼 충분히 큰 데이터세트를 사용하고 처리할 수 있나요?
+ 모델을 모니터링하고 재훈련을 위한 조치를 취하려면 어떻게 해야 하나요?
+ 모델이 비즈니스에 미치는 영향을 어떻게 측정하나요?
+ A/B 테스트를 수행하여 비즈니스 팀에 대한 가설을 검증할 수 있나요?

추가 질문은 [AWS Well-Architected Framework Machine Learning Lens](https://docs.aws.amazon.com/wellarchitected/latest/machine-learning-lens/machine-learning-lens.html)를 참조하세요.

# 비즈니스 목표에 맞게 스토리 조정
<a name="align-stories-goals"></a>

비즈니스 및 기술 평가를 수행한 후에는 각 데이터 사용 성숙도 수준에 대한 스토리 세트가 포함된 다이어그램을 생성하는 것이 좋습니다. 이 시각화를 사용하면 데이터 사용량을 회사의 비즈니스 목표에 쉽게 맞출 수 있습니다. 예를 들어 거의 실시간에 가까운 사기 감지와 같은 비즈니스 성과에는 거의 실시간에 가까운 행동 역량 스토리가 필요합니다.  

스토리는 비즈니스 목표를 달성하는 데 필요한 기술 역량, 데이터 공유 메커니즘, 사람 및 프로세스입니다. 비즈니스 검색 인터뷰를 기반으로 다이어그램 오른쪽에 비즈니스 성과를 작성하고 기술 평가를 기반으로 각 스토리의 상태를 채웁니다. 그런 다음 회사에서 작업해야 하는 스토리를 선택하고 로드맵을 생성할 수 있습니다. 

다음 다이어그램에서는 비즈니스 성과를 기반으로 각 스토리가 필요한지를 보여줍니다. 여기에서는 기술 평가에서 수집한 정보를 기반으로 각 스토리의 현재 상태도 보여줍니다. 다이어그램 뒤에는 일반적으로 각 상태를 자세히 설명하는 보고서가 나옵니다.

![\[각 데이터 성숙도 단계의 지원 스토리 시각화\]](http://docs.aws.amazon.com/ko_kr/prescriptive-guidance/latest/strategy-aws-data/images/enablement-stories.png)


오른쪽(*비즈니스 성과*)에서 왼쪽으로 돌아가 스토리를 활성화합니다. 예를 들어 세 번째 단계(*인사이트 및 보고서*)에서 스토리를 활성화하려면 두 번째 단계(*데이터 레이크*) 및 첫 번째 단계(*데이터 파운데이션*)에서 해당 종속성을 활성화해야 합니다.

평가 및 비즈니스 성과 요구 사항에 따라 각 스토리는 녹색, 노란색, 회색 또는 빨간색으로 분류됩니다.
+ 녹색은 스토리가 마련되어 있고 비즈니스 성과를 제공하도록 규모를 조정할 수 있음을 의미합니다. 예를 들어 다이어그램에서 첫 번째(*데이터 파운데이션*) 단계의 CDC 수집 스토리는 녹색입니다. 즉, 회사에는 보유한 데이터 소스에 대한 스토리를 달성할 수 있는 도구와 프로세스가 있습니다. *더 나은 고객 경험* 비즈니스 성과를 얻으려면 관련 고객 데이터를 수집하고 회사 내 다른 데이터로 보강하여 고객을 더 잘 이해하고 개인화를 제공해야 합니다.
+ 노란색은 기능 또는 프로세스가 존재하지만 완전히 작동하지 않거나 비즈니스 성과에 필요한 규모를 지원하지 않음을 의미합니다. 예를 들어 다이어그램에서 두 번째 단계(데이터 *레이크*)의 *중앙 집중식 데이터 카탈로그* 스토리는 노란색입니다. 이는 회사에 중앙 데이터 카탈로그가 있지만 카탈로그가 다른 단계에 필요한 메타데이터로 완전히 채워지지 않았거나 일부 비즈니스 영역에서만 사용됨을 나타냅니다. 이 분류는 다음 단계(*인사이트 및 보고서*)의 데이터 공유 기능에 영향을 미칩니다.
+ 회색은 스토리가 필요하지 않음을 의미합니다.
+ 빨간색은 비즈니스 성과에 스토리가 필요하지만 구현되지 않았음을 의미합니다. 예를 들어 다이어그램에서 *인사이트 및 보고서* 단계의 *데이터 공유* 스토리는 빨간색입니다. 고객 추천을 위한 포괄적인 기계 학습 모델을 생성하려면 데이터세트 그룹화가 필요하고, 이 경우 데이터 공유 역량이 요구됩니다. 그러나 이 스토리는 구현되지 않았습니다. 이 예제에서 데이터 공유를 위해 최소한 모델의 일부인 데이터세트에 대해 *데이터 레이크* 단계의 기능이 완전히 작동해야 하지만 *데이터 관리*가 구현되지 않았음을 확인할 수 있습니다.

*데이터 프라이버시, 보호 및 규정 준수* 스토리(*데이터 레이크* 단계)는 항상 필요하며, 데이터 개인 정보 보호 규정이 새로운 데이터 보호 요구 사항에 의해 강화됨에 따라 더 관련성이 높아집니다. 예를 들어 [일반 데이터 보호 규정(GDPR)](https://gdpr.eu/what-is-gdpr/)은 [버지니아 소비자 데이터 보호법(CDPA)](https://law.lis.virginia.gov/vacodefull/title59.1/chapter53/) 및 [캘리포니아 소비자 개인 정보 보호법(CCPA)](https://oag.ca.gov/privacy/ccpa)으로 미국에서 시작되었으며, 브라질의 [Lei Geral de Proteção a Dados Pessoais(LGPD)](https://www.serpro.gov.br/privacidade-protecao-dados), 멕시코의 [멕시코 데이터 보호](https://www.dataguidance.com/notes/mexico-data-protection-overview), 콜롬비아의 데이터 보호, 페루의 [법률 29733](https://www.leyes.congreso.gob.pe/Documentos/Leyes/29733.pdf), [아르헨티나 개인 데이터 보호 법률](http://servicios.infoleg.gob.ar/infolegInternet/anexos/320000-324999/323901/norma.htm)과 같이 일부 라틴 아메리카 국가에도 이미 마련되어 있습니다.