

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 設計和實作現代以資料為中心的架構使用案例的最佳實務
<a name="introduction"></a>

*Apoorva Patrikar，Amazon Web Services (AWS)*

*2023 年 5 月* ([文件歷史記錄](doc-history.md))

組織越來越遠離以應用程式為中心的架構，以接受以資料為中心的架構，其中 IT 基礎設施、應用程式開發，甚至是業務流程都以資料需求為中心。在以資料為中心的架構中，資料是核心 IT 資產，您可以設計 IT 系統和程序來最佳化您的資料。

本指南提供為您的使用案例設計以現代資料為中心的架構的最佳實務。您可以使用這些最佳實務來現代化資料管道，以及支援該管道的資料工程操作。本指南也提供資料管道中資料生命週期的概觀。透過了解此生命週期，您可以建置可將資料最佳化的資料管道。

您可以使用本指南來克服許多組織在為資料管道設計以資料為中心的架構時面臨的下列挑戰：
+ **避免儲存相同資料集的多個版本** – 經常多次處理資料並不罕見，但這種方法具有其限制。事實上，避免多次處理資料，通常資源密集性較低且更具成本效益。本指南向您展示採取不同方法的好處，該方法著重於在多個階段中儲存已處理的資料。
+ **不願意接受資料湖** – 很難整理有關資料湖的行銷聲明，而且也很難找出您的組織是否具備將資料湖整合到 IT 系統和程序中所需的技能和資源。本指南可協助您了解資料湖如何在以資料為中心的架構中成為有用的元件。
+ **僱用足夠的資料工程師** – 市場趨勢顯示，即使資料科學家沒有適當的資料工程技能，仍預期在許多組織中執行資料工程任務。此技能差距可能會影響您的time-to-market計劃。本指南可協助您更加了解資料工程技能對於設計以資料為中心的架構至關重要。
+ **缺乏使用 AWS 服務進行水平處理的知識** – 水平或分散式處理可讓叢集將任務映射到多個節點並收集結果，然後以透明方式將其傳送給使用者，以平行處理資料區塊。水平處理的移動代表資料檢視和處理方式的轉移。此轉移不僅影響應用程式邏輯或應用程式本身，還影響組織使用資料的方式。例如，水平處理會影響中央儲存、任務分佈和模組化。水平處理也偏好較大區塊的資料進行讀寫操作。本指南說明水平處理如何適用於您的資料管道。