

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 資料架構
<a name="data-arch"></a>

**設計並發展fit-for-purpose的資料和分析架構。**

[精心設計](https://docs.aws.amazon.com/wellarchitected/latest/analytics-lens/welcome.html)的資料和分析[架構](https://aws.amazon.com/architecture/analytics-big-data/)對於獲得可行的洞察至關重要。透過設計和發展fit-for-purpose的資料和分析架構，組織可以降低複雜性、成本和技術負債，同時從不斷增長的資料量中釋放寶貴的洞見。透過符合 AWS CAF 原則，企業可以建立與現有平台無縫整合的資料架構。這種一致性可讓組織利用現代資料處理和分析技術提供的優勢。

資料和分析架構是組織從資料中衍生價值之功能的藍圖。它有助於組織獲得新的業務洞察，並且是業務成長的促進因素。為了支援業務需求，現代資料架構應符合短期和長期業務目標，並符合組織的文化和內容需求。在現今的世界中，資料和分析架構的成功實作和採用，是以在正確的時間為正確的消費者啟用正確資料的原則為基礎。

這是透過規劃和組織組織資料資產在實體上或邏輯上如何建模、如何保護資料，以及這些資料模型如何彼此互動，以解決業務問題並衍生未知模式並產生洞見來實現的。

## Start
<a name="data-arch-start"></a>

### 定義總體功能
<a name="data-arch-capability"></a>

在目前的商業環境中，現代資料分析平台必須從資料衍生價值，以支援組織中的各種網域。[現代資料架構應包含工具集和模式，這些工具集專為特定使用案例而建置和最佳化，而不是採用單一資料架構](https://aws.amazon.com/big-data/datalakes-and-analytics/modern-data-architecture/)方法。架構應該能夠發展並包含基本的建置區塊，例如可擴展的資料湖、專用分析服務、統一的資料存取和統一控管。

### 組織資料區域
<a name="data-arch-zones"></a>

如何組織和存放資料以快速且輕鬆地存取，是資料架構的關鍵層面。這可以透過在資料湖中設定自訂資料區域來實現。資料區域分類如下：
+ 從異質來源收集的原始資料
+ 整理和轉換資料以支援每個網域的分析需求
+ 報告需求的使用案例或產品型資料規格
+ 具有安全與合規控制的外部公開資料

### 規劃資料的敏捷性和民主化
<a name="data-arch-agility"></a>

分析平台的有效性取決於佈建資料的速度，以及將佈建的資料普及化以供取用。資料佈建敏捷性是透過資料架構以各種方式取得和處理資料的能力，例如根據使用案例的即時、近乎即時、批次、微型批次或混合。資料民主化是透過定義由資料管理員監控的資料共用和存取控制工作流程來實現的。實作資料市集是讓資料普及的其中一個推動因素。

### 定義安全資料交付
<a name="data-arch-delivery"></a>

現代資料架構是外在安全方面的堡壘，但允許員工或資料使用者輕鬆存取其工作職能所定義的 ，並遵守[健康保險流通與責任法案 (HIPAA)](https://aws.amazon.com/compliance/hipaa-compliance/)、個人身分識別資訊 (PII)、[一般資料保護法規 (GDPR)](https://aws.amazon.com/compliance/gdpr-center/) 等合規限制。這是透過角色型存取控制 (RBAC) 和標籤型存取控制 (TBAC) 方法來實現的。在 上 AWS，標籤用於控制對資料的存取，以簡化存取控制管理。這樣做符合 [AWS CAF 安全觀點](https://docs.aws.amazon.com/whitepapers/latest/overview-aws-cloud-adoption-framework/security-perspective.html)中概述的原則。

### 規劃成本效益
<a name="data-arch-cost"></a>

**

傳統資料倉儲提供緊密耦合的運算和儲存，具有高成本的資源使用率。現代架構會分離運算和儲存體，並根據資料生命週期實作分層儲存體。例如， AWS您可以使用 [Amazon Simple Storage Service (Amazon S3)](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Welcome.html) 控制成本，並將資料儲存與運算分離。[Amazon S3 儲存體方案](https://aws.amazon.com/s3/storage-classes/)專為為不同存取模式提供最低成本的儲存體而打造。此外， AWS 運算工具 （例如 [Amazon Athena](https://docs.aws.amazon.com/athena/latest/ug/what-is.html)、[AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/what-is-glue.html)、[Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/dg/welcome.html) 和 [Amazon SageMaker 執行期](https://docs.aws.amazon.com/sagemaker/latest/dg/whatis.html)) 是無伺服器，因此您不必管理基礎設施，只需為使用量付費。 

## 進階
<a name="data-arch-advance"></a>

現代資料架構可以進一步增強，以增加資料用量的廣度，包括支援業務和營運功能的標準分析，以及支援預測和洞見的更複雜功能，並有助於支援更快的決策。為了達成此目的， 架構支援下列各節所述的功能。

### 了解功能工程
<a name="data-arch-feature"></a>

[特徵工程](https://docs.aws.amazon.com/wellarchitected/latest/machine-learning-lens/feature-engineering.html)使用機器學習，並涉及設定特徵存放區或特徵規格。資料科學團隊會為監督式和非監督式學習模型建立新的功能 （衍生屬性），並將其存放在功能組合中，以簡化轉換並增強資料準確性。企業可以在多個分析模型中重複使用這些功能，進而加快上市速度。

### 計劃取消標準化資料集
<a name="data-arch-denormalize"></a>

建構非標準化資料集或資料封送可以大幅簡化商業使用者的資料集，方法是在單一位置隨時提供所需的資料，並提高分析速度。如果精心設計，則一筆記錄可以支援多個用量模型，並減少整體開發生命週期。非標準化資料集的有效控管也很重要，原因有兩個。實作非標準化資料可能會建立大量備援資料集，這可能會成為大規模管理的挑戰。此外，如果資料集未正確建模，則可能越來越難以重新利用這些資料集。 

### 設計可攜性和可擴展性
<a name="data-arch-scalability"></a>

大型組織很少在單一資料平台上擁有其所有應用程式和使用者。其應用程式和資料存放區通常會分散在舊式內部部署和雲端平台，讓分析團隊難以混合和合併資料。我們建議您根據網域、地理位置、商業使用案例等特性容器化資料。此容器化可提高各種平台和應用程式之間的可攜性，並支援更有效的取用。將資料分割成容器並透過 APIs公開，可協助您更輕鬆地擴展資料架構。它可啟用混合end-to-end的資料流程，並協助內部部署和雲端型應用程式順暢運作。

## Excel
<a name="data-arch-excel"></a>

隨著現代分析架構在組織內不斷發展，透過引入可重複使用的概念來管理該變更非常重要。這些概念可提高耐用性和採用率，同時控制成本。以下各節將討論一些要考慮的概念。

### 設計可設定的架構
<a name="data-arch-framework"></a>

組織通常會建立多個複雜的模型，以滿足其獨特的業務需求。這些模型需要建立多個資料管道和工程設計功能。隨著時間的推移，這會產生大量的備援並提高營運成本。建立包含一組參數驅動、可設定的基礎模型的架構，可降低開發時間和營運成本。分析引擎可以實作這些可設定的模型，以提供所需的輸出。

### 計劃建置統一的分析引擎
<a name="data-arch-engine"></a>

業務問題是唯一的，通常需要自訂技術來解決需求，從而在組織中產生多個分析引擎。設計和開發可支援多個程式設計範例的統一 AI 型分析引擎界面，可簡化用量並降低成本。

### 定義 DataOps
<a name="data-arch-dataops"></a>

大多數資料專業人員會花費大量時間執行資料操作，例如尋找正確的資料、轉換、建模等。擁有敏捷的資料操作 (DataOps) 可以透過打破資料工程師、資料科學家、資料擁有者和分析師的孤島，大幅增強資料架構。DataOps 可讓團隊之間進行更好的通訊、縮短週期時間，並確保高資料品質。由於業務需求和技術發展不斷變化，資料和分析架構隨著時間經歷了許多轉型。組織必須努力開發、實作和維護資料和分析架構，該架構會隨著時間演進並支援其業務。