데이터 아키텍처 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 아키텍처

목적별 데이터 및 분석 아키텍처를 설계하고 발전시킵니다.

잘 설계된 데이터 및 분석 아키텍처는 실행 가능한 인사이트를 얻는 데 필수적입니다. 조직은 목적별 데이터 및 분석 아키텍처를 설계하고 발전시켜 복잡성, 비용 및 기술 부채를 줄이는 동시에 계속 증가하는 데이터 볼륨에서 소중한 인사이트를 얻을 수 있습니다. AWS CAF 원칙에 맞게 조정함으로써 비즈니스는 기존 플랫폼과 원활하게 통합되는 데이터 아키텍처를 생성할 수 있습니다. 이러한 조정을 통해 조직은 최신 데이터 처리 및 분석 기술이 제공하는 이점을 활용하여 수익을 창출할 수 있습니다.

데이터 및 분석 아키텍처는 데이터에서 가치를 도출하는 조직 역량의 블루프린트입니다. 그러면 조직이 새로운 비즈니스 인사이트를 얻는 데 도움이 되며 비즈니스 성장의 원동력이 됩니다. 비즈니스 요구 사항을 지원하기 위해 최신 데이터 아키텍처는 단기 및 장기 비즈니스 목표에 부합하고 조직의 문화적, 상황별 요구 사항에 고유해야 합니다. 오늘날 환경에서 데이터 및 분석 아키텍처의 성공적인 구현과 채택은 올바른 소비자에게 적시에 올바른 데이터를 지원하는 원칙을 기반으로 합니다.

이는 조직의 데이터 자산이 물리적 또는 논리적으로 모델링되는 방법, 데이터 보안 방법, 이러한 데이터 모델이 서로 상호 작용하여 비즈니스 문제를 해결하며 알려지지 않은 패턴을 도출하고 인사이트를 생성하는 방법을 계획하고 구성함으로써 달성됩니다.

시작

주요 기능 정의

현재 비즈니스 환경에서는 최신 데이터 분석 플랫폼이 데이터에서 가치를 도출하여 조직의 다양한 도메인을 지원하는 것이 중요합니다. 단일 데이터 아키텍처 접근 방식을 채택하는 대신 최신 데이터 아키텍처에는 특정 사용 사례에 맞게 최적화된 목적별 도구 세트와 패턴이 포함되어야 합니다. 아키텍처는 발전 가능해야 하며, 확장 가능한 데이터 레이크, 목적별 분석 서비스, 통합 데이터 액세스, 통합 거버넌스와 같은 기본 구성 요소를 포함해야 합니다.

데이터 존 구성

빠르고 쉬운 액세스를 위해 데이터를 구성하고 저장하는 방법은 데이터 아키텍처의 중요한 측면입니다. 데이터 레이크 내에 사용자 지정 데이터 존을 설정하면 됩니다. 데이터 존은 다음과 같이 분류됩니다.

  • 이기종 소스에서 수집된 원시 데이터

  • 각 도메인의 분석 요구 사항을 지원하기 위해 선별 및 변환된 데이터

  • 보고 요구 사항에 대한 사용 사례 또는 제품 기반 데이터 마트

  • 보안 및 규정 준수 제어와 함께 외부에 노출된 데이터

데이터의 민첩성 및 대중화를 위한 계획

분석 플랫폼의 효과는 데이터 프로비저닝 속도뿐만 아니라 소비를 위한 프로비저닝된 데이터의 대중화 속도에 따라 달라집니다. 데이터 프로비저닝 민첩성은 데이터 아키텍처가 사용 사례를 기반으로 실시간, 거의 실시간, 배치, 마이크로 배치 또는 하이브리드와 같은 다양한 방식을 통해 데이터를 조달하고 처리할 수 있는 역량으로 달성됩니다. 데이터 대중화는 데이터 관리자가 모니터링하는 데이터 공유 및 액세스 제어 워크플로를 정의하여 달성됩니다. 데이터 마켓플레이스의 구현은 데이터 대중화를 지원하는 기능 중 하나입니다.

보안 데이터 전달 정의

최신 데이터 아키텍처는 보안 측면에서 외부 세계로부터 보호된 요새와 같지만, 직무 정의에 따라 직원 또는 데이터 사용자에게 쉽게 액세스할 수 있으며 미국 건강 보험 양도 및 책임에 관한 법(HIPAA), 개인 식별 정보(PII), 일반 데이터 보호 규정(GDPR) 등과 같은 규정 준수 제한 사항을 준수합니다. 이는 역할 기반 액세스 제어(RBAC) 및 태그 기반 액세스 제어(TBAC) 방법을 이루어집니다. AWS에서 태그는 데이터에 대한 액세스를 제어하여 액세스 제어 관리를 간소화하는 데 사용됩니다. AWS CAF 보안 관점에 설명된 원칙에 따라 조정합니다.

비용 효율성을 위한 계획

기존 데이터 웨어하우스는 리소스 사용률이 높은 긴밀하게 결합된 컴퓨팅 및 스토리지를 제공합니다. 최신 아키텍처는 컴퓨팅과 스토리지를 분리하고 데이터 수명 주기를 기반으로 계층형 스토리지를 구현합니다. 예를 들어 AWS에서 Amazon Simple Storage Service(Amazon S3)를 사용하여 비용을 제어하고 컴퓨팅에서 데이터 스토리지를 분리할 수 있습니다. Amazon S3 스토리지 클래스는 다양한 액세스 패턴에 맞게 가장 저렴한 스토리지를 제공하도록 특별히 구축되었습니다. 또한 AWS 컴퓨팅 도구(예: Amazon Athena, AWS Glue, Amazon Redshift, Amazon SageMaker 런타임)는 서버리스 도구이므로 인프라를 관리할 필요가 없으며 사용한 만큼만 비용을 지불하면 됩니다. 

고급

비즈니스 및 운영 기능을 지원하는 표준 분석부터 예측 및 인사이트를 지원하는 더 복잡한 기능에 이르기까지 데이터 사용량의 폭을 넓히고 더 빠른 의사 결정을 지원하도록 최신 데이터 아키텍처를 더욱 강화할 수 있습니다. 이를 위해 아키텍처는 다음 섹션에서 설명하는 기능을 지원합니다.

특성 엔지니어링 이해

특성 엔지니어링은 기계 학습을 사용하고 특성 저장소 또는 특성 마트 설정을 수행합니다. 데이터 과학 팀은 지도 학습 모델과 비지도 학습 모델 모두에 대한 새로운 기능(파생 속성)을 생성하고 특성 마트에 저장하여 변환을 간소화하고 데이터 정확도를 높입니다. 엔터프라이즈는 여러 분석 모델에서 기능을 재사용할 수 있으므로 출시 속도가 개선됩니다.

데이터세트 비정규화를 위한 계획

비정규화된 데이터세트 또는 데이터 마트를 구성하면 필요한 데이터를 단일 위치에서 쉽게 사용할 수 있고 분석 속도를 높여 비즈니스 사용자의 데이터세트를 크게 간소화할 수 있습니다. 신중하게 설계한 경우 하나의 레코드가 여러 사용 모델을 지원하고 전체 개발 수명 주기를 줄일 수 있습니다. 또한 비정규화된 데이터세트에 대한 효과적인 거버넌스는 두 가지 이유에서 중요합니다. 비정규화된 데이터를 구현하면 많은 중복 데이터세트가 생성되어 대규모로 관리하기 어려울 수 있습니다. 또한 이러한 데이터세트가 올바르게 모델링되지 않으면 용도를 변경하기가 점점 더 어려울 수 있습니다. 

이식성 및 확장성 설계

대규모 조직은 단일 데이터 플랫폼에 모든 애플리케이션과 사용자를 보유하는 경우가 거의 없습니다. 조직의 애플리케이션과 데이터 저장소는 일반적으로 레거시 온프레미스와 클라우드 플랫폼에 분산되므로 분석 팀이 데이터를 혼합하고 병합하기가 어렵습니다. 이 경우 도메인, 지역, 비즈니스 사용 사례 등과 같은 특성을 기반으로 데이터를 컨테이너화하는 것이 좋습니다. 이러한 컨테이너화는 다양한 플랫폼과 애플리케이션 간 이동성을 높이고 보다 효과적인 사용을 지원합니다. 데이터를 컨테이너로 분할하고 API를 통해 노출하면 데이터 아키텍처를 더 쉽게 확장할 수 있습니다. 포괄적인 하이브리드 데이터 흐름을 지원하고 온프레미스 및 클라우드 기반 애플리케이션이 원활하게 작동하도록 지원합니다.

Excel

조직 내에서 최신 분석 아키텍처가 발전함에 따라 재사용 가능한 개념을 도입하여 이러한 변경 사항을 관리하는 것이 중요합니다. 이 개념은 비용을 관리하면서 내구성과 채택률을 높입니다. 다음 섹션에서 고려해야 할 몇 가지 개념을 설명합니다.

구성 가능한 프레임워크 설계

조직은 종종 고유한 비즈니스 요구 사항을 해결하기 위해 여러 복잡한 모델을 생성합니다. 이러한 모델은 여러 데이터 파이프라인과 엔지니어링된 특성을 생성해야 합니다. 시간이 지남에 따라 상당한 중복성이 발생하고 운영 비용이 증가합니다. 파라미터 기반의 구성 가능한 기본 모델 세트를 통합하는 프레임워크를 생성하면 개발 시간과 운영 비용이 절감됩니다. 분석 엔진은 이러한 구성 가능한 모델을 구현하여 원하는 출력을 제공할 수 있습니다.

통합 분석 엔진 빌드를 위한 계획

비즈니스 문제는 고유하며 요구 사항을 해결하기 위해 사용자 지정 기술이 필요한 경우가 많으므로 조직에는 여러 분석 엔진이 있습니다. 여러 프로그래밍 패러다임을 지원할 수 있는 통합 AI 기반 분석 엔진 인터페이스를 설계하고 개발하면 사용이 간소화되고 비용이 절감됩니다.

DataOps 정의

대부분의 데이터 전문가는 올바른 데이터 찾기, 변환, 모델링 등과 같은 데이터 작업을 수행하는 데 상당한 시간을 소비합니다. 애자일 데이터 운영(DataOps)을 활용하면 데이터 엔지니어, 데이터 과학자, 데이터 소유자 및 분석가의 사일로를 허물고 데이터 아키텍처를 크게 개선할 수 있습니다. DataOps를 통해 팀 간의 통신을 개선하고, 주기 시간을 줄이며, 높은 데이터 품질을 보장할 수 있습니다. 데이터 및 분석 아키텍처는 변화하는 비즈니스 요구 사항과 기술 발전으로 인해 시간이 지남에 따라 수많은 변환을 거쳤습니다. 조직은 시간이 지남에 따라 발전하며 비즈니스를 지원하는 데이터 및 분석 아키텍처를 개발, 구현 및 유지하기 위해 노력해야 합니다.