生成式 AI 應用程式的資料安全性、生命週期和策略 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

生成式 AI 應用程式的資料安全性、生命週期和策略

Romain Vivier,Amazon Web Services

2025 年 7 月 (文件歷史記錄)

生成式 AI 正在改變企業環境。它實現了前所未有的創新、自動化和競爭差異化水準。不過,實現其完整潛力的能力不僅取決於強大的模型,還取決於強大且有意義的資料策略。本指南說明生成式 AI 計畫中出現的資料特定挑戰,並提供有關如何克服這些挑戰並實現有意義的業務成果的明確方向。

生成式 AI 帶來的最基本變化之一是它對大量非結構化和多模態資料的依賴。傳統的機器學習通常取決於結構化、標記的資料集。不過,生成式 AI 系統會從文字、影像、音訊、程式碼和影片中學習,這些內容通常未加上標籤且具有高度變數。因此,組織必須重新評估和擴展其傳統資料策略,以包含這些新資料類型。這樣做有助於他們建立更多內容感知應用程式、改善使用者體驗、提高生產力並加速內容產生,同時減少對手動輸入的依賴。

本指南概述支援有效生成式 AI 部署的完整資料生命週期。這包括準備和清理大規模資料集、實作擷取增強生成 (RAG) 管道,讓模型的內容保持最新狀態、對特定網域的資料進行微調,以及建立持續的意見回饋迴圈。如果正確完成,這些活動會增強模型效能和相關性。他們也透過更快速交付 AI 使用案例、改善決策支援,以及提高營運效率,來提供有形的商業價值。

安全性與控管會呈現為成功的關鍵支柱。本指南說明如何協助保護敏感資訊、強制執行存取控制和解決風險 (例如幻覺、資料中毒和對抗攻擊)。將強大的管理和監控實務嵌入生成式 AI 工作流程,可支援法規合規要求、協助保護企業的評價,並在 AI 系統中建立內部和外部信任。它還討論了與資料相關的代理程式 AI 挑戰,並強調了在代理程式型系統中對身分管理、可追蹤性和強大安全性的需求。

本指南也會將資料策略連接到生成式 AI 採用的每個階段:設想、實驗、啟動和擴展。如需此模型的詳細資訊,請參閱採用生成式 AI 的成熟度模型 AWS。在每個階段,組織必須使其資料基礎設施、控管模型和營運準備度與其業務目標保持一致。此一致性可加快生產速度、降低風險,並確保生成式 AI 解決方案能夠以負責任且永續的方式在整個企業中擴展。

總而言之,強大的資料策略是生成式 AI 成功的先決條件。將資料視為策略資產並投資於控管、品質和安全性的組織,更能放心地部署生成式 AI。他們可以更快地從實驗轉移到整個企業的轉型,並實現可衡量的結果,例如改善客戶體驗、營運效率和長期競爭優勢。

目標對象

本指南適用於希望為生成式 AI 建置和操作強大且可擴展的資料策略的企業領導者、資料專業人員和技術決策者。 本指南中的建議適用於開始或推進生成式 AI 旅程的企業。它可協助您調整資料策略、控管和安全架構,以最大化生成式 AI 的商業價值和優勢。若要了解本指南中的概念和建議,您應該熟悉基本 AI 和資料概念,也應該熟悉企業 IT 控管和合規的基本概念。

目標

根據本指南中的建議修改您的資料策略可以有以下好處:

  • 了解傳統 ML 和生成式 AI 之間的資料需求和實務有何不同,並了解這些差異對您的企業資料策略有何意義。

  • 了解傳統 ML 的結構化、標記資料與驅動生成式 AI 的非結構化、多模式資料之間的差異。

  • 除了已建立的 ML 實務之外,了解生成式 AI 模型為何需要新的資料準備、整合和管理方法。

  • 了解透過生成式 AI 進行資料合成如何加速更傳統的 ML 使用案例。