View a markdown version of this page

資料策略 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料策略

妥善定義的資料策略對於成功採用生成式 AI 至關重要。本節會檢視資料策略如何在生成式 AI 採用旅程的每個階段扮演關鍵角色。它還概述了各種實作維度的關鍵考量事項。如需生成式 AI 旅程階段的詳細資訊,請參閱 AWS 方案指引中的在 上採用生成式 AI 的成熟度模型 AWS

生成式 AI 採用旅程是四個關鍵階段的結構化進展:

  • 願景:組織探索生成式 AI 概念、建置意識,並識別潛在的使用案例。

  • 實驗 – 組織透過結構化試行專案和概念驗證來驗證生成式 AI 的潛力,同時建置核心技術功能和實作的基礎架構。

  • 啟動 – Organizations 系統性地部署生產就緒的生成式 AI 解決方案,其具有強大的控管、監控和支援機制,可提供一致的價值和卓越營運,同時維持安全和合規標準。

  • 擴展 – Organizations 透過可重複使用的元件、標準化模式和自助式平台建立全企業的生成式 AI 功能,以加速採用,同時維持自動化控管並促進創新。

在所有階段中, AWS 強調整體方法,使策略與基礎設施投資、控管政策、安全架構和營運最佳實務保持一致,以促進負責任且可擴展的 AI 部署。每個階段都需要在六個採用的基礎支柱之間保持一致:商業、人員、治理、平台、安全和營運。這些支柱符合並擴展AWS 雲端採用架構 (AWS CAF),以滿足生成式 AI 需求。

第 1 級:Envision

在 Envision 階段,組織著重於規劃,方法是識別合適的使用案例、映射必要的資料來源以進行實作,以及為即將到來的實驗階段建立基礎安全和資料存取要求。

在此階段,以下是採用支柱的一致性條件:

  • 業務 – 識別符合企業目標的生成式 AI 的策略使用案例。評估高價值資料所在的位置及其可存取性。

  • 人員 – 透過教育領導階層和利益相關者有關資料在生成式 AI 採用中的重要性,來培養資料驅動型文化。

  • 控管 – 執行初始資料稽核,以評估合規性、隱私權疑慮和潛在的道德風險。制定 AI 透明度和責任的早期政策。

  • 平台 – 評估現有的資料基礎設施、編目內部和外部資料來源,並評估資料品質,以確保生成式 AI 可行性。

  • 安全性 – 開始實作資料存取的存取控制和最低權限原則。確定生成式 AI 模型只能擷取使用者獲授權存取的資訊。

  • 操作 – 定義結構化方法來收集、清理和標記生成式 AI 實驗的資料。建立資料監控的初始意見回饋迴圈。

第 2 級:實驗

在實驗階段,組織會驗證所需資料的可用性和適用性,以支援已識別使用案例的實作。同時,建立最低可行的資料控管架構,以支援在概念驗證中使用真實資料。您可以微調選取的基礎模型,或結合擷取增強生成 (RAG) 方法使用off-the-shelf模型。

在此階段,以下是採用支柱的一致性條件:

  • 業務 – 定義試行專案的明確成功條件,並確保資料可用性符合每個使用案例的需求。

  • 人員 – 組成一個跨職能團隊,其中包含資料工程師、AI 專家和領域專家。此團隊負責驗證資料品質和模型是否符合業務需求。

  • 控管 – 草擬生成式 AI 資料控管的架構。架構至少應討論法規合規性和負責任的 AI 指導方針。

  • 平台 – 實作早期資料整合工作,包括結構化和非結構化資料管道。設定 RAG 實驗的向量資料庫。

  • 安全性 – 強制執行嚴格的資料許可和合規檢查。在模型訓練之前,請確定 PII 或其他敏感資訊已遮罩或匿名化。

  • 操作 – 若要準備生產版本,請建立品質指標以識別差距。

第 3 級:啟動

在啟動階段,生成式 AI 解決方案會從實驗移至完整規模的部署。此時,整合已完全實作,並建立強大的監控架構來追蹤效能、模型行為和資料品質。強制執行全面的安全和合規措施,以支援資料隱私權、安全和法規遵循。

在此階段,以下是採用支柱的一致性條件:

  • 業務 – 測量營運效率和商業價值。最佳化營運成本和資源使用。

  • 人員 – 培訓營運團隊進行生成式 AI 模型管理和監控。使用適當的資料整理程序。

  • 控管 – 精簡生成式 AI 資料控管的架構。解決法規合規、模型偏差和負責任的 AI 指導方針。建立生成式 AI 資料管道的持續稽核,以驗證是否符合不斷變化的法規。

  • 平台 – 最佳化可擴展的基礎設施,以支援即時資料擷取、向量搜尋,並視需要微調。

  • 安全性 – 部署加密、角色型存取控制 (RBAC) 和最低權限存取模型。您可以使用 Amazon Q Business 控制資料存取,並確保生成式 AI 解決方案僅擷取使用者獲授權存取的資料。

  • 操作 – 建立資料可觀測性實務。追蹤資料歷程、來源和品質指標,以在擴展之前識別差距。

第 4 級:擴展

在擴展階段,焦點轉移到自動化、標準化和企業整體採用。Organizations 建立可重複使用的資料管道、實作可擴展的控管架構,並強制執行強大的政策,以支援資料可存取性、安全性和合規性。此階段將 資料產品普及化。這有助於整個組織的團隊無縫開發和部署新的生成式 AI 解決方案,同時保持一致性、品質和控制。

在此階段,以下是採用支柱的一致性條件:

  • 商業 – 使生成式 AI 專案與長期業務目標保持一致。專注於營收成長、降低成本和客戶滿意度。

  • 人員 – 透過 AI 卓越中心 (CoEs),開發全企業的 AI 素養計劃,並將 AI 採用納入業務職能。

  • 控管 – 標準化跨部門的 AI 控管政策,以提升 AI 決策的一致性。

  • 平台 – 投資可擴展的 AI 資料平台,這些平台使用雲端原生解決方案進行聯合資料存取和處理。

  • 安全性 – 實作自動化合規監控、強大的資料外洩防護 (DLP) 和持續威脅評估。

  • 操作 – 建立 AI 可觀測性架構。大規模整合意見回饋迴圈、異常偵測和模型效能分析。