에서 성장 및 확장을 위한 데이터 레이크 설계 AWS 클라우드 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

에서 성장 및 확장을 위한 데이터 레이크 설계 AWS 클라우드

Wei Shao, Amazon Web Services(AWS)

2021년 10월(문서 기록)

조직은 데이터 현대화 전략의 일환으로 Amazon Web Services(AWS) 클라우드에서 데이터 레이크를 점점 더 설계하고 구축하고 있습니다. 데이터 레이크는 모든 규모로 정형 및 비정형 데이터를 저장하고 광범위한 내부 및 외부 사용자가 사용할 수 있도록 하는 리포지토리일 수 있습니다.

그러나 증가하는 비즈니스 사용 사례에 도움이 되는 데이터 레이크에 데이터를 수집하는 데 상당한 시간과 노력이 걸릴 수 있습니다. 비용을 절감하고 데이터에서 생성되는 가치를 극대화하기 위해 많은 조직에서 데이터를 데이터 레이크로 한 번 수집한 다음이 데이터를 여러 번 사용할 계획입니다. 데이터 레이크가 성장할 때 비즈니스 이해관계자에게 가치를 제공하려면 데이터 프로덕션, 공유 및 소비에 따라 확장되는 데이터 레이크 아키텍처를 설계하는 것이 중요합니다.

확장 가능한 데이터 레이크 아키텍처는 조직에 더 많은 데이터를 가져오면서 데이터 레이크에서 가치를 얻을 수 있는 견고한 기반을 제공합니다. 확장성 제약으로 인해 속도가 느려지거나 중단되지 않고 데이터 인사이트를 지속적으로 얻음으로써 확장 가능한 데이터 레이크는 조직이 경쟁을 유지하는 데도 도움이 됩니다.

일반적으로 데이터 레이크에는 데이터 생산자와 데이터 소비자가 있습니다. 데이터 생산자는 데이터 도메인에서 데이터를 수집, 처리 및 저장하여 데이터 자산을 생성합니다. 이러한 집합 데이터 자산은 데이터 레이크의 콘텐츠를 형성합니다. 데이터 생산자는 데이터 자산을 데이터 레이크의 데이터 소비자와 선택적으로 공유하도록 선택할 수 있습니다.

데이터 소비자는 비즈니스 사용 사례를 이행하기 위해 데이터 생산자의 데이터가 필요하며 때때로이 데이터를 자체 데이터와 결합할 수도 있습니다. 데이터 생산자와 데이터 소비자는 일반적으로 조직의 일부이지만 항상 그런 것은 아닙니다. 중요한 것은 둘 다 동시에 데이터 생산자 또는 데이터 소비자일 수 있다는 것입니다.

확장 가능한 데이터 레이크 아키텍처는 다음과 같은 결과를 달성하는 데 도움이 됩니다.

  • 전체 데이터 공유 프로세스를 유지할 필요 없이 대규모로 데이터 생산자를 온보딩합니다. 이를 통해 데이터 생산자는 데이터를 데이터 레이크에 온보딩하고 데이터 도메인에서 데이터를 수집, 처리 및 저장하는 데 집중할 수 있습니다.

  • 데이터 소비자는 전체 비용과 관리 오버헤드를 늘리지 않고도 여러 데이터 생산자의 데이터에 액세스할 수 있습니다.

이 가이드에서는 조직이 데이터 레이크를 확장하고, 데이터 레이크 참조 아키텍처를 제공하고, 데이터 생산자 및 데이터 소비자에게 온보딩하고 액세스 권한을 부여할 때 발생할 수 있는 일반적인 규모 조정 문제를 설명합니다. 이 가이드의 데이터 레이크 참조 아키텍처는에서 제공하는 다양한 기능을 활용합니다AWS Lake Formation. 이 가이드는 엔터프라이즈 데이터 아키텍트 AWS 클라우드, 데이터 플랫폼 아키텍트, 디자이너 또는 데이터 도메인 리드를 포함하여에서 데이터 레이크를 설계하는 팀을 대상으로 합니다.

목표 비즈니스 성과

성장 및 확장을 위해 데이터 레이크를 설계한 후 AWS 클라우드다음 세 가지 결과를 기대해야 합니다.

  • 조직의 여러 사업부에서 데이터 공유 및 데이터 소비 오버헤드를 줄입니다.

  • 조직이 외부 데이터 생산자를 포함하고 데이터 레이크에서 데이터를 공유하는 데 도움이 되는 안전하고 일관된 접근 방식입니다.

  • 확장성 제약으로 인해 속도 저하 또는 중단 없이 데이터 인사이트를 지속적으로 얻을 수 있습니다.