최신 데이터 중심 아키텍처 사용 사례 설계 및 구현 모범 사례 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

최신 데이터 중심 아키텍처 사용 사례 설계 및 구현 모범 사례

Apoorva Patrikar, Amazon Web Services(AWS)

2023년 5월(문서 기록)

조직은 데이터 요구 사항을 중심으로 IT 인프라, 애플리케이션 개발 및 비즈니스 프로세스를 설계하는 데이터 중심 아키텍처를 수용하기 위해 애플리케이션 중심 아키텍처에서 벗어나고 있습니다. 데이터 중심 아키텍처에서 데이터는 핵심 IT 자산이며, 데이터를 최적화하도록 IT 시스템과 프로세스를 설계합니다.

이 가이드에서는 사용 사례에 맞는 최신 데이터 중심 아키텍처를 설계하는 모범 사례를 제공합니다. 이러한 모범 사례를 사용하여 데이터 파이프라인과 해당 파이프라인을 지원하는 데이터 엔지니어링 작업을 현대화할 수 있습니다. 또한 이 가이드에서는 데이터 파이프라인의 데이터 수명 주기에 대한 개요도 제공합니다. 이 수명 주기를 이해하면 데이터를 최적화하는 데이터 파이프라인을 빌드할 수 있습니다.

이 가이드를 사용하여 데이터 파이프라인의 데이터 중심 아키텍처를 설계할 때 많은 조직이 직면하는 다음과 같은 문제를 해결할 수 있습니다.

  • 동일한 데이터세트의 여러 버전 저장 자제 - 데이터를 여러 번 자주 처리하는 것은 드문 일이 아니지만 이 접근 방식에는 제한 사항이 있습니다. 실제로 데이터를 여러 번 처리하지 않으면 리소스 집약도를 낮추고 비용 효율적인 경우가 많습니다. 이 가이드에서는 처리된 데이터를 여러 단계로 저장하는 데 중점을 두는 다른 접근 방식을 취할 경우 이점을 보여줍니다.

  • 데이터 레이크 수용을 주저함 - 데이터 레이크에 관한 마케팅 클레임을 분류하기 어려울 수 있으며, 조직에 데이터 레이크를 IT 시스템 및 프로세스에 통합하는 데 필요한 기술과 리소스가 있는지 파악하는 것도 쉽지 않을 수 있습니다. 이 가이드는 데이터 레이크가 데이터 중심 아키텍처에서 어떻게 유용한 구성 요소가 될 수 있는지 이해하는 데 도움이 될 수 있습니다.

  • 충분한 데이터 엔지니어 고용 - 시장 추세에 따르면 데이터 과학자는 올바른 데이터 엔지니어링 기술이 없더라도 많은 조직에서 데이터 엔지니어링 작업을 수행해야 합니다. 이러한 기술 격차는 시장 출시 계획에 영향을 미칠 수 있습니다. 이 가이드는 데이터 중심 아키텍처를 설계하는 데 필요한 데이터 엔지니어링 기술을 더 잘 이해하는 데 도움이 될 수 있습니다.

  • 수평 처리를 위한 AWS 서비스 사용 관련 지식 부족 - 수평 또는 분산 처리를 통해 클러스터는 태스크를 여러 노드에 매핑하고 사용자에게 투명하게 전송하기 전에 결과를 수집하여 데이터 청크를 병렬로 처리할 수 있습니다. 수평 처리를 향한 움직임은 데이터를 보고 처리하는 방식을 중심으로 한 변화입니다. 이러한 전환은 애플리케이션 로직 또는 애플리케이션 자체뿐만 아니라 조직이 데이터를 사용하는 방식에도 영향을 미칩니다. 예를 들어 수평 처리는 중앙 스토리지, 작업 배포 및 모듈화에 영향을 미칩니다. 수평 처리는 읽기 및 쓰기 작업에서 더 큰 데이터 청크를 선호합니다. 이 가이드에서는 데이터 파이프라인에서 수평적 처리가 작동하는 방법을 설명합니다.