個人資料 OU – PD 應用程式帳戶 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

個人資料 OU – PD 應用程式帳戶

調查

我們希望聽到您的意見。請進行簡短的問卷,以提供對 AWS PRA 的意見回饋。

Personal Data (PD) 應用程式帳戶是您的組織託管收集和處理個人資料的服務。具體而言,您可以將定義為個人資料的內容存放在此帳戶中。 AWS PRA 透過多層無伺服器 Web 架構示範許多隱私權組態範例。當涉及到跨 AWS 登陸區域的操作工作負載時,不應將隱私權組態視為one-size-fits-all解決方案。例如,您的目標是了解基礎概念、它們如何增強隱私權,以及您的組織如何將解決方案套用至您的特定使用案例和架構。

對於 AWS 帳戶 組織中收集、存放或處理個人資料的 ,您可以使用 AWS Organizations 和 AWS Control Tower 部署基礎和可重複的護欄。為這些帳戶建立專用組織單位 (OU) 至關重要。例如,您可能只想將資料駐留護欄套用至資料駐留是核心設計考量的部分帳戶。對於許多組織而言,這些是存放和處理個人資料的帳戶。

您的組織可能會考慮支援專用資料帳戶,這是您存放個人資料集授權來源的位置。授權資料來源是您存放主要資料版本的位置,這可能會被視為最可靠且準確的資料版本。例如,您可以將授權資料來源中的資料複製到其他位置,例如 PD 應用程式帳戶中的 Amazon Simple Storage Service (Amazon S3) 儲存貯體,這些儲存貯體用於存放訓練資料、一部分客戶資料和修訂後的資料。透過採取這種多帳戶方法,將資料帳戶中的完整和確定性個人資料集與 PD 應用程式帳戶中的下游消費者工作負載分開,您可以在未經授權存取您的帳戶時減少影響範圍。

下圖說明 PD 應用程式和資料帳戶中設定 AWS 的安全性和隱私權服務。

AWS 服務 部署在個人資料應用程式和個人資料 OU 中的資料帳戶中。

Amazon Athena

您可以考慮資料查詢限制控制,以符合您的隱私權目標。Amazon Athena 是一種互動式查詢服務,可協助您使用標準 SQL 直接在 Amazon S3 中分析資料。您不需要將資料載入 Athena;它可直接處理存放在 S3 儲存貯體中的資料。

Athena 的常見使用案例是為資料分析團隊提供量身打造且經過清理的資料集。如果資料集包含個人資料,您可以透過遮罩為資料分析團隊提供少量價值的整個個人資料欄來淨化資料集。如需詳細資訊,請參閱使用 Amazon Athena 匿名化和管理資料湖中的資料,以及 AWS Lake Formation(AWS 部落格文章)。

如果您的資料轉換方法在 Athena 支援的函數之外需要額外的彈性,您可以定義自訂函數,稱為使用者定義的函數 (UDF)。您可以在提交至 Athena UDFs,並在其上執行 AWS Lambda。您可以在 SELECTFILTER SQL查詢中使用 UDFs,也可以在相同的查詢中叫用多個 UDFs。對於隱私權,您可以建立執行特定類型資料遮罩的 UDFs,例如只顯示資料欄中每個值的最後四個字元。

Amazon Bedrock

Amazon Bedrock 是一項全受管服務,可從 AI21 實驗室、Anthropic、Meta、Mistral AI 和 Amazon 等領導 AI 公司存取基礎模型。它可協助組織建置和擴展生成式 AI 應用程式。無論使用哪個平台,使用生成式 AI 時,組織都可能面臨隱私權風險,包括可能暴露個人資料、未經授權的資料存取,以及其他違規。

Amazon Bedrock Guardrails 旨在透過在 Amazon Bedrock 中跨生成式 AI 工作負載強制執行安全和合規最佳實務,協助緩解這些風險。AI 資源的部署和使用不一定符合組織的隱私權和合規要求。組織在使用生成式 AI 模型時可能會難以維護資料隱私權,因為這些模型可能會記住或重現敏感資訊。Amazon Bedrock Guardrails 透過評估使用者輸入和模型回應,協助保護隱私權。整體而言,如果輸入資料包含個人資料,在模型的輸出中可能會公開此資訊的風險。

Amazon Bedrock Guardrails 提供機制來強制執行資料保護政策,並協助防止未經授權的資料暴露。它提供內容篩選功能,可在輸入中偵測和封鎖個人資料、主題限制以協助防止存取不適當或有風險的主題,以及在模型提示和回應中遮罩或修訂敏感詞彙的字詞篩選條件。這些功能有助於防止可能導致隱私權違規的事件,例如回應偏差或客戶信任遭到侵蝕。這些功能可協助您確保 AI 模型不會不小心處理或揭露個人資料。Amazon Bedrock Guardrails 也支援評估 Amazon Bedrock 外部的輸入和回應。如需詳細資訊,請參閱使用 Amazon Bedrock Guardrails 實作與模型無關的安全措施 (AWS 部落格文章)。

使用 Amazon Bedrock Guardrails,您可以使用情境接地檢查來評估事實接地和回應相關性,以限制模型幻覺的風險。例如,部署生成式 AI 客戶面向應用程式,該應用程式在擷取增強生成 (RAG) 應用程式中使用第三方資料來源。內容基礎檢查可用來驗證這些資料來源的模型回應,並篩選掉不正確的回應。在 AWS PRA 的內容中,您可以跨工作負載帳戶實作 Amazon Bedrock Guardrail,在其中強制執行針對每個工作負載需求量身打造的特定隱私權護欄。

AWS Clean Rooms

當組織透過分析交集或重疊的敏感資料集來尋找彼此協作的方法時,維護該共用資料的安全性和隱私權是一大問題。 AWS Clean Rooms可協助您部署資料無塵室,這是安全、中立的環境,讓組織可以分析合併的資料集,而無需共用原始資料本身。它也可以透過提供存取權給 上的其他組織來產生唯一的洞見, AWS 而無需從自己的帳戶移動或複製資料,也不會洩露基礎資料集。所有資料會保留在來源位置。內建分析規則會限制輸出並限制 SQL 查詢。系統會記錄所有查詢,協同合作成員可以檢視其資料的查詢方式。

您可以建立 AWS Clean Rooms 協同合作,並邀請其他 AWS 客戶成為該協同合作的成員。您授予一個成員查詢成員資料集的能力,您可以選擇其他成員來接收這些查詢的結果。如果多個成員需要查詢資料集,您可以建立與相同資料來源和不同成員設定的其他協同合作。每個成員都可以篩選與協同合作成員共用的資料,而且您可以使用自訂分析規則來設定如何分析他們提供給協同合作的資料的限制。

除了限制提供給協同合作的資料,以及其他成員如何使用, AWS Clean Rooms 還提供下列功能,可協助您保護隱私權:

  • 差異隱私權是一種數學技術,透過在資料中新增仔細校正的雜訊量來增強使用者隱私權。這有助於降低資料集內個別使用者重新識別的風險,而不會遮蔽感興趣的值。使用AWS Clean Rooms 差異隱私權不需要差異隱私權專業知識。

  • AWS Clean Rooms ML 允許兩個或多個方在其資料中識別類似的使用者,而無需直接彼此共用資料。這可降低成員資格推論攻擊的風險,其中協作的成員可以識別其他成員資料集中的個人。透過建立外觀相似的模型並產生外觀相似的區段, AWS Clean Rooms ML 可協助您比較資料集,而不會公開原始資料。這不需要成員具備 ML 專業知識或在 之外執行任何工作 AWS Clean Rooms。您可以保留訓練模型的完整控制權和擁有權。

  • 適用於無塵室的密碼編譯運算 (C3R) 可與分析規則搭配使用,以從敏感資料衍生洞見。它以密碼編譯方式限制協作的任何其他方可以學習的內容。使用 C3R 加密用戶端,資料會先在用戶端加密,再提供給 AWS Clean Rooms。由於資料表在上傳至 Amazon S3 之前是使用用戶端加密工具加密,因此資料會保持加密,並透過處理持續存在。

在 AWS PRA 中,我們建議您在資料帳戶中建立 AWS Clean Rooms 協同合作。您可以使用它們與第三方共用加密的客戶資料。只有在提供的資料集中有重疊時,才使用它們。如需如何判斷重疊的詳細資訊,請參閱 AWS Clean Rooms 文件中的列出分析規則

Amazon CloudWatch Logs

Amazon CloudWatch Logs 可協助您集中所有系統、應用程式和 AWS 服務 的日誌,以便您可以對其進行監控並安全地進行封存。在 CloudWatch Logs 中,您可以針對新的或現有的日誌群組使用資料保護政策,以協助將個人資料的揭露風險降至最低。資料保護政策可以偵測日誌中的敏感資料,例如個人資料。當使用者透過 存取日誌時,資料保護政策可以遮罩該資料 AWS Management Console。當使用者需要直接存取個人資料時,根據您的工作負載的整體用途規格,您可以為這些使用者指派logs:Unmask許可。您也可以建立整個帳戶的資料保護政策,並一致地將此政策套用至組織中的所有帳戶。根據預設,這會為 CloudWatch Logs 中的所有目前和未來日誌群組設定遮罩。我們也建議您啟用稽核報告,並將其傳送至另一個日誌群組、Amazon S3 儲存貯體或 Amazon Data Firehose。這些報告包含每個日誌群組中資料保護問題清單的詳細記錄。

Amazon CodeGuru Reviewer

對於隱私權和安全性,許多組織在部署和部署後階段都支援持續合規至關重要。PRA 在 AWS 處理個人資料之應用程式的部署管道中包含主動控制。Amazon CodeGuru Reviewer 可以偵測可能以 Java、JavaScript 和 Python 程式碼公開個人資料的潛在瑕疵。它為開發人員提供改善程式碼的建議。CodeGuru Reviewer 可以識別各種安全性、隱私權和一般建議實務中的瑕疵。它旨在與多個來源提供者搭配使用,包括 AWS CodeCommit、Bitbucket、GitHub 和 Amazon S3。CodeGuru Reviewer 可以偵測的一些隱私權相關瑕疵包括:

  • SQL 注入

  • 不安全的 Cookie

  • 缺少授權

  • 用戶端 AWS KMS 重新加密

如需 CodeGuru Reviewer 可偵測項目的完整清單,請參閱 Amazon CodeGuru Detector Library

Amazon Comprehend

Amazon Comprehend 是一種自然語言處理 (NLP) 服務,使用機器學習在英文文字文件中發現寶貴的洞見和連線。Amazon Comprehend 可以偵測和修訂結構化、半結構化或非結構化文字文件中的個人資料。如需詳細資訊,請參閱 Amazon Comprehend 文件中的個人身分識別資訊 (PII)

您可以使用 AWS SDKs和 Amazon Comprehend API,將 Amazon Comprehend 與許多應用程式整合。例如,使用 Amazon Comprehend 透過 Amazon S3 Object Lambda 偵測和修訂個人資料。組織可以使用 S3 Object Lambda 將自訂程式碼新增至 Amazon S3 GET 請求,以在資料傳回應用程式時修改和處理資料。S3 Object Lambda 可以篩選資料列、動態調整影像大小、修訂個人資料等。由 AWS Lambda 函數提供支援的程式碼會在由 完全管理的基礎設施上執行 AWS,無需建立和存放資料的衍生複本或執行代理。您不需要變更應用程式,即可使用 S3 Object Lambda 轉換物件。您可以在 中使用 ComprehendPiiRedactionS3Object Lambda 函數 AWS Serverless Application Repository 來修訂個人資料。此函數使用 Amazon Comprehend 來偵測個人資料實體,並以星號取代這些實體。如需詳細資訊,請參閱 Amazon S3 文件中的使用 S3 Object Lambda 和 Amazon Comprehend 偵測和修訂 PII 資料。 Amazon S3

由於 Amazon Comprehend 有許多透過 AWS SDKs進行應用程式整合的選項,因此您可以使用 Amazon Comprehend 在您收集、存放和處理資料的不同位置識別個人資料。您可以使用 Amazon Comprehend ML 功能來偵測和修訂應用程式日誌 (AWS 部落格文章)、客戶電子郵件、支援票證等中的個人資料。PD 應用程式帳戶的架構圖顯示如何在 Amazon EC2 上為應用程式日誌執行此函數。Amazon Comprehend 提供兩種修訂模式:

  • REPLACE_WITH_PII_ENTITY_TYPE 會將每個 PII 實體取代為其類型。例如,Jane Doe 將被取代為 NAME

  • MASK 以您選擇的字元 (!、#、$、%、&、 或 @) 取代 PII 實體中的字元。例如,Jane Doe 可以取代為 **** ***

Amazon Data Firehose

Amazon Data Firehose 可用來擷取、轉換串流資料,並將資料載入下游服務,例如 Amazon Managed Service for Apache Flink 或 Amazon S3。Firehose 通常用於傳輸大量串流資料,例如應用程式日誌,而無需從頭開始建置處理管道。

您可以使用 Lambda 函數在資料傳送至下游之前執行自訂或內建處理。為了隱私權,此功能支援資料最小化和跨邊界資料傳輸需求。例如,您可以使用 Lambda 和 Firehose 在多區域日誌資料集中於日誌存檔帳戶之前進行轉換。如需詳細資訊,請參閱台灣百健:多帳戶集中記錄解決方案 (YouTube 影片)。在 PD 應用程式帳戶中,您可以設定 Amazon CloudWatch 和 AWS CloudTrail 將日誌推送至 Firehose 交付串流。Lambda 函數會轉換日誌,並將其傳送至 Log Archive 帳戶中的中央 S3 儲存貯體。您可以設定 Lambda 函數來遮罩包含個人資料的特定欄位。這有助於防止跨 傳輸個人資料 AWS 區域。透過使用此方法,個人資料會在傳輸和集中化之前遮罩,而不是在傳輸和集中之後遮罩。對於不受跨邊界傳輸要求的司法管轄區中的應用程式,透過 CloudTrail 中的組織追蹤彙總日誌通常更具營運效率和成本效益。如需詳細資訊,請參閱本指南AWS CloudTrail安全 OU – 安全工具帳戶一節中的 。

Amazon DataZone

隨著組織擴展其共用資料的方法, AWS 服務 例如 AWS Lake Formation,他們想要確保差異存取是由最熟悉資料的人員所控制:資料擁有者。不過,這些資料擁有者可能知道隱私權要求,例如同意或跨邊界資料傳輸考量。Amazon DataZone 會根據您的資料管控政策,協助資料擁有者和資料控管團隊跨組織共用和使用資料。在 Amazon DataZone 中,業務單位 (LOBs會管理自己的資料,而目錄會追蹤此擁有權。感興趣的對象可以在其業務任務中尋找和請求存取資料。只要遵守資料發佈者建立的政策,資料擁有者就可以授予基礎資料表的存取權,而無需管理員或移動資料。

在隱私權環境中,Amazon DataZone 在下列範例使用案例中很有幫助:

  • 面向客戶的應用程式會產生用量資料,可與個別的行銷 LOB 共用。您需要確保只有選擇加入行銷的客戶的資料才會發佈至 目錄。

  • 歐洲客戶資料已發佈,但只能由位於歐洲經濟區域 (EEA) 的 LOBs 訂閱。如需詳細資訊,請參閱使用 Amazon DataZone 中的精細存取控制增強資料安全性

在 AWS PRA 中,您可以將共用 Amazon S3 儲存貯體中的資料以資料生產者身分連線至 Amazon DataZone。

AWS Glue

維護包含個人資料的資料集是設計隱私的關鍵組成部分。組織的資料可能以結構化、半結構化或非結構化的形式存在。沒有結構的個人資料集可能難以執行許多隱私權增強操作,包括資料最小化、追蹤屬於單一資料主體的資料作為資料主體請求的一部分、確保一致的資料品質,以及資料集的整體分割。 AWS Glue 是一種全受管的擷取、轉換和載入 (ETL) 服務。它可協助您分類、清理、豐富和移動資料存放區和資料串流之間的資料。 AWS Glue 功能旨在協助您探索、準備、建構和結合資料集,以進行分析、機器學習和應用程式開發。您可以使用 在現有資料集上 AWS Glue 建立可預測且通用的結構。 AWS Glue Data Catalog AWS Glue DataBrew、 和 AWS Glue Data Quality 是可協助支援組織隱私權需求的 AWS Glue 功能。

AWS Glue Data Catalog

AWS Glue Data Catalog 可協助您建立可維護的資料集。Data Catalog 包含資料參考,做為擷取、轉換和載入 (ETL) 任務的來源和目標 AWS Glue。Data Catalog 中的資訊會儲存為中繼資料資料表,而每個資料表都會指定單一資料存放區。您可以執行 AWS Glue 爬蟲程式來清查各種資料存放區類型中的資料。您可以將內建和自訂分類器新增至爬蟲程式,這些分類器會推斷個人資料的資料格式和結構描述。爬蟲程式接著會將中繼資料寫入 Data Catalog。集中式中繼資料表可以更輕鬆地回應資料主體請求 (例如刪除權),因為它可新增 AWS 環境中不同個人資料來源的結構和可預測性。如需如何使用 Data Catalog 自動回應這些請求的完整範例,請參閱使用 Amazon S3 Find and Forget 處理資料湖中的資料清除請求 (AWS 部落格文章)。最後,如果您的組織使用 AWS Lake Formation來管理和提供跨資料庫、資料表、資料列和儲存格的精細存取,則 Data Catalog 是關鍵元件。Data Catalog 提供跨帳戶資料共用,並協助您使用標籤型存取控制大規模管理資料湖 (AWS 部落格文章)。如需詳細資訊,請參閱本節AWS Lake Formation中的 。

AWS Glue DataBrew

AWS Glue DataBrew 可協助您清理和標準化資料,並對資料執行轉換,例如移除或遮罩個人身分識別資訊,以及加密資料管道中的敏感資料欄位。您也可以視覺化地映射資料的歷程,以了解資料經過的各種資料來源和轉換步驟。隨著您的組織努力更好地了解和追蹤個人資料來源,此功能變得越來越重要。DataBrew 可協助您在資料準備期間遮罩個人資料。您可以在資料分析任務中偵測個人資料,並收集統計資料,例如可能包含個人資料和潛在類別的資料欄數。然後,您可以使用內建的可逆或不可逆資料轉換技術,包括替換、雜湊、加密和解密,而無須撰寫任何程式碼。然後,您可以使用下游已清理和遮罩的資料集進行分析、報告和機器學習任務。DataBrew 中提供的一些資料遮罩技術包括:

  • 雜湊 – 將雜湊函數套用至資料欄值。

  • 替代 - 將個人資料取代為其他外觀真實的值。

  • 剔除或刪除 – 將特定欄位取代為 null 值,或刪除資料欄。

  • 遮罩 – 使用角色亂碼,或遮罩欄中的某些部分。

以下是可用的加密技術:

  • 確定性加密 – 將確定性加密演算法套用至資料欄值。確定性加密一律會為值產生相同的加密文字。

  • 機率加密 – 將機率加密演算法套用至資料欄值。每次套用機率加密都會產生不同的加密文字。

如需 DataBrew 中所提供的個人資料轉換配方的完整清單,請參閱個人身分識別資訊 (PII) 配方步驟

AWS Glue 資料品質

AWS Glue Data Quality 可協助您在交付至資料消費者之前,主動自動化和操作跨資料管道的高品質資料交付。 AWS Glue Data Quality 提供跨資料管道的資料品質問題的統計分析,可在 Amazon EventBridge 中觸發警示,並提出修補的品質規則建議。 AWS Glue Data Quality 也支援使用特定網域的語言建立規則,讓您可以建立自訂資料品質規則。

AWS Key Management Service

AWS Key Management Service (AWS KMS) 可協助您建立和控制密碼編譯金鑰,以協助保護您的資料。 AWS KMS keys 根據 FIPS 140-2 密碼編譯模組驗證計畫, AWS KMS 會使用硬體安全模組來保護和驗證。如需如何在安全內容中使用此服務的詳細資訊,請參閱 AWS 安全參考架構

AWS KMS 與大多數提供加密 AWS 服務 的 整合,您可以在處理和儲存個人資料的應用程式中使用 KMS 金鑰。您可以使用 AWS KMS 協助支援各種隱私權要求並保護個人資料,包括:

  • 使用客戶受管金鑰來更好地控制強度、旋轉、過期和其他選項。

  • 使用專用客戶受管金鑰來保護允許存取個人資料的個人資料和秘密。

  • 定義資料分類層級,並為每個層級指定至少一個專用客戶受管金鑰。例如,您可能有一個金鑰用於加密操作資料,另一個用於加密個人資料。

  • 防止意外的跨帳戶存取 KMS 金鑰。

  • 將 KMS 金鑰存放在與要加密之資源 AWS 帳戶 相同的 內。

  • 實作 KMS 金鑰管理和使用的責任分離。如需詳細資訊,請參閱如何使用 KMS 和 IAM 為 S3 中的加密資料啟用獨立安全控制 (AWS 部落格文章)。

  • 透過預防性和被動護欄強制執行自動金鑰輪換。

根據預設,KMS 金鑰會儲存,且只能在建立金鑰的區域中使用。如果您的組織對資料落地和主權有特定要求,請考慮多區域 KMS 金鑰是否適合您的使用案例。多區域金鑰是不同 中的特殊用途 KMS 金鑰 AWS 區域 ,可以互換使用。建立多區域金鑰的程序會將您的金鑰材料跨 AWS 區域 邊界移動到內部 AWS KMS,因此缺乏區域隔離可能與組織的主權和駐留目標不相容。解決此問題的一種方法是使用不同類型的 KMS 金鑰,例如區域特定的客戶受管金鑰。

外部金鑰存放區

對於許多組織, 中的預設 AWS KMS 金鑰存放區 AWS 雲端 可以滿足其資料主權和一般法規要求。但是,有些可能需要在雲端環境之外建立和維護加密金鑰,並且您有獨立的授權和稽核路徑。使用 中的外部金鑰存放區 AWS KMS,您可以使用組織擁有和控制外部的金鑰材料來加密個人資料 AWS 雲端。您仍然照常與 AWS KMS API 互動,但只會與您提供的外部金鑰存放區代理 (XKS 代理) 軟體 AWS KMS 互動。您的外部金鑰存放區代理接著會調解 AWS KMS 和外部金鑰管理器之間的所有通訊。

使用外部金鑰存放區進行資料加密時,相較於在 中維護金鑰,請務必考慮額外的操作開銷 AWS KMS。使用外部金鑰存放區,您必須建立、設定和維護外部金鑰存放區。此外,如果您必須維護的其他基礎設施發生錯誤,例如 XKS 代理,且連線中斷,使用者可能暫時無法解密和存取資料。與您的合規和法規利益相關者緊密合作,以了解個人資料加密的法律和合約義務,以及您的服務水準協議的可用性和彈性。

AWS Lake Formation

透過結構化中繼資料目錄來為資料集編製目錄和分類的許多組織希望在其組織中共用這些資料集。您可以使用 AWS Identity and Access Management (IAM) 許可政策來控制對整個資料集的存取,但對於包含不同敏感度之個人資料的資料集,通常需要更精細的控制。例如,用途規格和使用限制 (FPC 網站) 可能表示行銷團隊需要存取客戶地址,但資料科學團隊不需要。

資料湖也有相關的隱私權挑戰,以其原始格式集中存取大量敏感資料。大多數組織的資料都可以集中存取,因此資料集的邏輯分隔,特別是包含個人資料的資料集,是至關重要的。 AWS Lake Formation可協助您在共用資料時設定控管和監控,無論是來自單一來源還是資料湖中包含的許多來源。在 AWS PRA 中,您可以使用 Lake Formation 對資料帳戶中的共用資料儲存貯體中的資料提供精細的存取控制。

您可以使用 Lake Formation 中的標籤型存取控制功能。標籤型存取控制是一種授權策略,可根據屬性定義許可。在 Lake Formation 中,這些屬性稱為 LF 標籤。使用 LF 標籤,您可以將這些標籤連接到 Data Catalog 資料庫、資料表和資料欄,並將相同的標籤授予 IAM 主體。Lake Formation 允許在委託人獲得許可存取符合資源標籤值的標籤值時,對這些資源進行操作。下圖顯示如何指派 LF 標籤和許可,以提供對個人資料的差異化存取。

LF 標籤控制團隊可存取的資料表資料欄。

此範例使用標籤的階層性質。這兩個資料庫都包含個人身分識別資訊 (PII:true),但資料欄層級的標籤會將特定資料欄限制為不同的團隊。在此範例中,擁有 LF-Tag PII:true 的 IAM 主體可以存取具有此標籤的 AWS Glue 資料庫資源。具有 LOB:DataScience LF-Tag 的主體可以存取具有此標籤的特定資料欄,具有 LF-Tag LOB:Marketing 的主體只能存取具有此標籤的資料欄。行銷只能存取與行銷使用案例相關的 PII,資料科學團隊只能存取與其使用案例相關的 PII。

AWS Local Zones

如果您需要遵守資料駐留要求,您可以部署資源,以在特定 中存放和處理個人資料 AWS 區域 ,以支援這些要求。您也可以使用 AWS Local Zones,這可協助您將運算、儲存、資料庫和其他特定 AWS 資源放在接近大型人口和產業中心的位置。Local Zone 是 的延伸 AWS 區域 ,地理位置接近大型都會區域。您可以將特定類型的資源放在 Local Zone 內,靠近 Local Zone 對應的區域。當區域在相同的法律管轄區內無法使用時,Local Zones 可協助您符合資料落地要求。當您使用 Local Zones 時,請考慮在您的組織內部署的資料駐留控制。例如,您可能需要控制以防止從特定本機區域到另一個區域的資料傳輸。如需如何使用 SCPs 維護跨邊界資料傳輸護欄的詳細資訊,請參閱AWS Local Zones 使用登陸區域控制在 中管理資料駐留的最佳實務 (AWS 部落格文章)。

AWS Nitro Enclaves

從處理角度考慮您的資料分割策略,例如使用 Amazon Elastic Compute Cloud (Amazon EC2) 等運算服務處理個人資料。作為較大架構策略一部分的機密運算,可協助您在隔離、受保護且信任的 CPU 環境中隔離個人資料處理。Enclaves 是獨立、強化且受到高度限制的虛擬機器。AWS Nitro Enclaves 是一種 Amazon EC2 功能,可協助您建立這些隔離的運算環境。如需詳細資訊,請參閱 AWS Nitro 系統的安全設計 (AWS 白皮書)。

Nitro Enclaves 部署與父執行個體核心分開的核心。父執行個體的核心無法存取 enclave。使用者無法 SSH 或遠端存取 enclave 中的資料和應用程式。處理個人資料的應用程式可以內嵌在 enclave 中,並設定為使用 enclave 的 Vsock,這是促進 enclave 與父執行個體之間通訊的通訊端。

Nitro Enclaves 可能很有用的一個使用案例是在兩個資料處理器之間進行關節處理,這兩個資料處理器位於不同的 AWS 區域 ,而這些資料處理器可能不信任彼此。下圖顯示如何使用 enclave 進行集中處理、將個人資料傳送到 enclave 之前用於加密的 KMS 金鑰,以及驗證請求解密的 enclave 在其證明文件中具有唯一度量 AWS KMS key 的政策。如需詳細資訊和說明,請參閱搭配 使用密碼編譯證明 AWS KMS。如需範例金鑰政策,請參閱本指南需要證明才能使用 AWS KMS 金鑰中的 。

使用 AWS Nitro Enclave 處理不同帳戶中 Amazon S3 儲存貯體中的加密資料。

透過此實作,只有個別的資料處理者和基礎 enclave 可以存取純文字個人資料。資料在個別資料處理者環境外公開的唯一位置,是在 enclave 本身,旨在防止存取和竄改。

許多組織想要將個人資料暴露限制在不受信任的網路。例如,如果您想要增強整體應用程式架構設計的隱私權,您可以根據資料敏感度來分割網路 (類似於AWS 服務 和 功能,可協助客群資料一節中討論的資料集邏輯和實體分離)。 AWS PrivateLink可協助您從虛擬私有雲端 (VPCs) 建立與 VPC 外部服務的單向私有連線。使用 AWS PrivateLink,您可以設定在環境中存放或處理個人資料的 服務的專用私有連線;不需要連線到公有端點,並透過不受信任的公有網路傳輸此資料。當您啟用範圍內 AWS PrivateLink 服務的服務端點時,不需要網際網路閘道、NAT 裝置、公有 IP 地址、 AWS Direct Connect 連線或 AWS Site-to-Site VPN 連線即可通訊。當您使用 AWS PrivateLink 連線到提供個人資料存取權的服務時,您可以根據您組織的資料周邊定義,使用 VPC 端點政策和安全群組來控制存取。如需僅允許信任組織中 IAM 原則 AWS 和資源存取服務端點的範例 VPC 端點政策,請參閱本指南需要組織成員資格才能存取 VPC 資源中的 。

AWS Resource Access Manager

AWS Resource Access Manager (AWS RAM) 可協助您安全地跨 共用資源 AWS 帳戶 ,以減少營運開銷並提供可見性和可稽核性。當您規劃多帳戶分割策略時,請考慮使用 AWS RAM 來共用您存放在個別隔離帳戶中的個人資料存放區。您可以與其他可信任的帳戶共用該個人資料,以進行處理。在 中 AWS RAM,您可以管理許可,以定義可在共用資源上執行的動作。所有對 的 API 呼叫 AWS RAM 都會記錄在 CloudTrail 中。此外,您可以設定 Amazon CloudWatch Events 自動通知您 中的特定事件 AWS RAM,例如變更資源共享的時間。

雖然您可以在 AWS 帳戶 IAM 中使用以資源為基礎的政策,或在 Amazon S3 中使用儲存貯體政策,以與其他 共用許多類型的 AWS 資源,但 為隱私權 AWS RAM 提供額外的優點。 為資料擁有者 AWS 提供額外的可見性,讓您了解跨 共用資料的方式和對象 AWS 帳戶,包括:

  • 能夠與整個 OU 共用資源,而不是手動更新帳戶 IDs清單

  • 如果消費者帳戶不屬於您的組織,請強制執行共用啟動的邀請程序

  • 特定 IAM 主體可存取每個個別資源的可見性

如果您先前已使用以資源為基礎的政策來管理資源共用,並想要 AWS RAM 改用 ,請使用 PromoteResourceShareCreatedFromPolicy API 操作。

Amazon SageMaker AI

Amazon SageMaker AI 是一種受管機器學習 (ML) 服務,可協助您建置和訓練 ML 模型,然後將模型部署到生產就緒的託管環境中。SageMaker AI 旨在讓您更輕鬆地準備訓練資料和建立模型功能。

Amazon SageMaker 模型監控

許多組織在訓練 ML 模型時考慮資料偏離。資料偏離是生產資料與用來訓練 ML 模型的資料之間的有意義的變化,或隨著時間的推移,輸入資料中的有意義的變更。資料偏離可以降低 ML 模型預測的整體品質、準確性和公平性。如果 ML 模型在生產環境中接收的資料的統計性質偏離訓練的基準資料的性質,預測的準確性可能會下降。Amazon SageMaker Model Monitor 可以持續監控生產環境中 Amazon SageMaker AI 機器學習模型的品質,並監控資料品質。及早主動偵測資料偏離可協助您實作修正動作,例如重新訓練模型、稽核上游系統或修正資料品質問題。Model Monitor 可以減輕手動監控模型或建置其他工具的需求。

Amazon SageMaker Clarify

Amazon SageMaker Clarify 提供模型偏差和可解釋性的洞見。SageMaker Clarify 通常用於 ML 模型資料準備和整體開發階段。開發人員可以指定感興趣的屬性,例如性別或年齡,SageMaker Clarify 會執行一組演算法來偵測這些屬性中是否有任何偏差。演算法執行後,SageMaker Clarify 會提供視覺報告,其中包含可能偏差的來源和測量說明,讓您可以識別修復偏差的步驟。例如,在只包含幾個商業貸款範例的金融資料集中,SageMaker 可以標記不平衡,因此您可以避免不利於該年齡群組的模型。您也可以透過檢閱其預測,以及持續監控這些 ML 模型是否有偏差,來檢查已訓練的模型是否有偏差。最後,SageMaker Clarify 與 Amazon SageMaker AI Experiments 整合,提供圖形說明哪些功能對模型的整體預測制定程序貢獻最大。此資訊可能有助於滿足可解釋性結果,而且可協助您判斷特定模型輸入是否比對整體模型行為的影響更大。

Amazon SageMaker 模型卡

Amazon SageMaker 模型卡可協助您記錄 ML 模型的關鍵詳細資訊,以供控管和報告之用。這些詳細資訊可能包括模型擁有者、一般用途、預期使用案例、所做的假設、模型的風險評分、訓練詳細資訊和指標,以及評估結果。如需詳細資訊,請參閱AWS 使用人工智慧和Machine Learning解決方案的模型可解釋性 (AWS 白皮書)。

Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler 是一種機器學習工具,可協助簡化資料準備和特徵工程程序。它提供視覺化界面,可協助資料科學家和機器學習工程師快速輕鬆地準備和轉換資料,以用於機器學習模型。使用 Data Wrangler,您可以從各種來源匯入資料,例如 Amazon S3、Amazon Redshift 和 Amazon Athena。然後,您可以使用超過 300 個內建資料轉換來清理、標準化和合併功能,而無需撰寫任何程式碼。

Data Wrangler 可用於 AWS PRA 中的資料準備和特徵工程程序。它使用 支援靜態和傳輸中的資料加密 AWS KMS,並使用 IAM 角色和政策來控制對資料和資源的存取。它支援透過 AWS Glue 或 Amazon SageMaker Feature Store 進行資料遮罩。如果您將 Data Wrangler 與 整合 AWS Lake Formation,則可以強制執行精細的資料存取控制和許可。您甚至可以將 Data Wrangler 與 Amazon Comprehend 搭配使用,以自動修訂表格式資料中的個人資料,做為更廣泛的 ML Ops 工作流程的一部分。如需詳細資訊,請參閱使用 Amazon SageMaker Data Wrangler 自動修訂機器學習的 PII (AWS 部落格文章)。

Data Wrangler 的多樣性可協助您遮罩許多產業的敏感資料,例如帳號、信用卡號碼、社會安全號碼、病患姓名,以及醫療和軍事記錄。您可以限制對任何敏感資料的存取,或選擇加以修訂。

AWS 有助於管理資料生命週期的 功能

當不再需要個人資料時,您可以將生命週期和time-to-live政策用於許多不同資料存放區中的資料。設定資料保留政策時,請考慮下列可能包含個人資料的位置:

  • 資料庫,例如 Amazon DynamoDB 和 Amazon Relational Database Service (Amazon RDS)

  • Amazon S3 儲存貯體

  • 來自 CloudWatch 和 CloudTrail 的日誌

  • AWS Database Migration Service (AWS DMS) 和 AWS Glue DataBrew 專案中遷移的快取資料

  • 備份和快照

下列 AWS 服務 和 功能可協助您在 AWS 環境中設定資料保留政策:

  • Amazon S3 生命週期 – 定義 Amazon S3 套用至一組物件之動作的一組規則。在 Amazon S3 Lifecyle 組態中,您可以建立過期動作,定義 Amazon S3 代表您刪除過期物件的時間。如需詳細資訊,請參閱管理儲存生命週期

  • Amazon Data Lifecycle Manager – 在 Amazon EC2 中,建立可自動建立、保留和刪除 Amazon Elastic Block Store (Amazon EBS) 快照和 EBS 支援的 Amazon Machine Image (AMIs) 的政策。

  • DynamoDB 存留時間 (TTL) – 定義每個項目時間戳記,以決定何時不再需要項目。在指定時間戳記的日期和時間之後不久,DynamoDB 會從資料表中刪除項目。

  • CloudWatch Logs 中的日誌保留設定 – 您可以將每個日誌群組的保留政策調整為介於 1 天到 10 年之間的值。

  • AWS Backup – 集中部署資料保護政策,以設定、管理和控管各種 AWS 資源的備份活動,包括 S3 儲存貯體、RDS 資料庫執行個體、DynamoDB 資料表、EBS 磁碟區等。透過指定資源類型或根據現有 AWS 資源標籤套用 ,將備份政策套用至資源。從集中式主控台稽核並報告備份活動,以協助滿足備份合規要求。

AWS 服務 和 功能,可協助客群資料

資料分割是您將資料存放在不同容器中的程序。這可協助您為每個資料集提供差異化的安全性和身分驗證措施,並減少整體資料集的暴露影響範圍。例如,您可以將此資料分割為更小、更易於管理的群組,而不是將所有客戶資料儲存在一個大型資料庫中。

您可以使用實體和邏輯分隔來分割個人資料:

  • 實體分隔 – 將資料存放於個別資料存放區或將資料分散至個別 AWS 資源的行為。雖然資料實際上是分開的,但兩個資源都可能可供相同的主體存取。這就是為什麼我們建議將物理分離與邏輯分離結合。

  • 邏輯分離 – 使用存取控制隔離資料的行為。不同的任務函數需要對個人資料子集的不同層級存取權。如需實作邏輯分隔的範例政策,請參閱本指南授予特定 Amazon DynamoDB 屬性的存取權中的 。

編寫以身分為基礎的和資源為基礎的政策時,邏輯和物理分隔的組合可提供靈活性、簡單性和精細性,以支援跨任務職能的差異化存取。例如,建立在邏輯上分隔單一 S3 儲存貯體中不同資料分類的政策,在操作上可能很複雜。針對每個資料分類使用專用 S3 儲存貯體,可簡化政策組態和管理。

AWS 服務 和 功能,可協助探索、分類或分類資料

有些組織尚未開始在其環境中使用擷取、載入和轉換 (ELT) 工具來主動為其資料編製目錄。這些客戶可能處於早期資料探索階段,他們希望更了解他們存放和處理的資料 AWS ,以及其結構和分類方式。您可以使用 Amazon Macie 進一步了解 Amazon S3 中的 PII 資料。不過,Amazon Macie 無法協助您分析其他資料來源,例如 Amazon Relational Database Service (Amazon RDS) 和 Amazon Redshift。您可以在大型資料映射練習開始時,使用兩種方法來加速初始探索:

  • 手動方法 – 製作一個資料表,其中包含兩個資料欄和任意數量的資料列。在第一欄中,撰寫可能位於網路封包標頭或內文或您提供的任何服務的資料特性 (例如使用者名稱、地址或性別)。請您的合規團隊完成第二欄。在第二欄中,如果資料被視為個人資料,請輸入「是」,如果資料不是,則輸入「否」。指出被視為特別敏感的任何類型的個人資料,例如宗教面額或健康資料。

  • 自動化方法 – 使用透過 提供的工具 AWS Marketplace。其中一個這類工具是 Securiti。這些解決方案提供的整合,可讓它們跨多種 AWS 資源類型掃描和探索資料,以及其他雲端服務平台中的資產。其中許多相同的解決方案可以持續收集和維護集中式資料目錄中的資料資產和資料處理活動的庫存。如果您依賴工具來執行自動分類,則可能需要調校探索和分類規則,以符合組織對個人資料的定義。