기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
최신 데이터 중심 아키텍처 사용 사례 설계 및 구현 모범 사례
Apoorva Patrikar, Amazon Web Services(AWS)
2023년 5월(문서 기록)
조직은 IT 인프라, 애플리케이션 개발 및 심지어 비즈니스 프로세스가 데이터 요구 사항을 중심으로 설계되는 데이터 중심 아키텍처를 수용하기 위해 애플리케이션 중심 아키텍처에서 벗어나고 있습니다. 데이터 중심 아키텍처에서 데이터는 핵심 IT 자산이며, 데이터를 최적화하도록 IT 시스템과 프로세스를 설계합니다.
이 가이드에서는 사용 사례에 맞는 최신 데이터 중심 아키텍처를 설계하는 모범 사례를 제공합니다. 이러한 모범 사례를 사용하여 데이터 파이프라인과 해당 파이프라인을 지원하는 데이터 엔지니어링 작업을 현대화할 수 있습니다. 또한이 가이드는 데이터 파이프라인의 데이터 수명 주기에 대한 개요를 제공합니다. 이 수명 주기를 이해하면 데이터를 최적화하는 데이터 파이프라인을 구축할 수 있습니다.
이 가이드를 사용하여 데이터 파이프라인용 데이터 중심 아키텍처를 설계할 때 많은 조직이 직면하는 다음과 같은 문제를 해결할 수 있습니다.
동일한 데이터 세트의 여러 버전을 저장하는 것을 우회 - 데이터를 여러 번 자주 처리하는 것은 드문 일이 아니지만이 접근 방식에는 제한이 있습니다. 실제로 데이터를 여러 번 처리하지 않는 것이 리소스 집약적이고 비용 효율적인 경우가 많습니다. 이 가이드는 처리된 데이터를 여러 단계로 저장하는 데 중점을 두는 다른 접근 방식을 취할 때의 이점을 보여줍니다.
데이터 레이크를 수용하는 것을 꺼림 - 데이터 레이크에 대한 마케팅 클레임을 분류하는 것은 어려울 수 있으며, 조직에 데이터 레이크를 IT 시스템 및 프로세스에 통합하는 데 필요한 기술과 리소스가 있는지 파악하는 것도 어려울 수 있습니다. 이 가이드는 데이터 레이크가 데이터 중심 아키텍처에서 어떻게 유용한 구성 요소가 될 수 있는지 이해하는 데 도움이 될 수 있습니다.
충분한 데이터 엔지니어 고용 - 시장 추세에 따르면 데이터 과학자는 적절한 데이터 엔지니어링 기술이 없더라도 많은 조직에서 데이터 엔지니어링 작업을 수행해야 합니다. 이러한 기술 격차는 time-to-market 영향을 미칠 수 있습니다. 이 가이드는 데이터 중심 아키텍처를 설계하는 데 필요한 데이터 엔지니어링 기술을 더 잘 이해하는 데 도움이 될 수 있습니다.
수평 처리를 위한 AWS 서비스 사용에 대한 지식 부족 - 수평 또는 분산 처리를 통해 클러스터는 작업을 여러 노드에 매핑하고 사용자에게 투명하게 전송하기 전에 결과를 수집하여 데이터 청크를 병렬로 처리할 수 있습니다. 수평 처리를 향한 이동은 데이터를 보고 처리하는 방식을 중심으로 한 변화를 나타냅니다. 이 전환은 애플리케이션 로직 또는 애플리케이션 자체뿐만 아니라 조직이 데이터를 사용하는 방식에도 영향을 미칩니다. 예를 들어 수평 처리는 중앙 스토리지, 작업 배포 및 모듈화에 영향을 미칩니다. 수평 처리는 읽기-쓰기 작업에 더 큰 데이터 청크를 선호합니다. 이 가이드에서는 데이터 파이프라인에서 수평 처리가 작동하는 방법을 설명합니다.