受信任的身分傳播與 AWS Glue ETL - AWS Glue

受信任的身分傳播與 AWS Glue ETL

透過 IAM Identity Center,可以連線到身分提供者 (IdP),並集中管理跨 AWS 分析服務之使用者和群組的存取權。您可以將 Okta、Ping 和 Microsoft Entra ID (先前稱為 Azure Active Directory) 等身分提供者與 IAM Identity Center 整合,讓組織中的使用者使用單一登入體驗存取資料。IAM Identity Center 也支援連接額外的第三方身分提供者。

使用 AWS Glue 5.0 和更高版本,可以將使用者身分從 IAM Identity Center 傳播到 AWS Glue 互動式工作階段。AWS Glue互動式工作階段會進一步將提供的身分傳播到下游服務,例如 Amazon S3 存取授權、AWS Lake Formation 和 Amazon Redshift,以透過這些下游服務中的使用者身分啟用安全的資料存取。

概觀

對於任何規模和類型的組織,Identity Center 是在 AWS 上進行員工身分驗證和授權的建議方法。Identity Center 讓您可以建立和管理 AWS 中的使用者身份,或連接現有的身分來源,包括 Microsoft Active Directory、Okta、Ping Identity、JumpCloud、Google Workspace 和 Microsoft Entra ID (舊稱為 Azure AD)。

受信任的身分傳播是一種 IAM Identity Center 功能,連線 AWS 服務的管理員可以使用此功能來授予和稽核服務資料的存取權。系統將根據群組關聯等使用者屬性授予對此資料的存取權。設定受信任身分傳播需要連線 AWS 服務管理員與 IAM Identity Center 管理員之間的協同合作。

功能和優勢

AWS Glue 互動式工作階段與 IAM Identity Center 受信任的身分傳播整合,可提供下列優點:

  • 能夠在 Lake Formation 管理的 AWS Glue 資料型錄資料表上使用 Identity Center 身分強制執行資料表層級授權和精細存取控制。

  • 能夠在 Amazon Redshift 叢集上使用 Identity Center 身分強制執行授權。

  • 啟用使用者動作的端對端追蹤以進行稽核。

  • 能夠在 Amazon S3 存取授權管理的 Amazon S3 字首上使用 Identity Center 身分,強制執行 Amazon S3 字首層級授權。

使用案例

互動式資料探索和分析

資料工程師可使用其公司身分,無縫存取和分析多個 AWS 帳戶的資料。透過 SageMaker Studio,他們可使用 AWS Glue ETL 啟動互動式 Spark 工作階段,連線至各種資料來源,包括 Amazon S3 和 AWS Glue Data Catalog。當工程師探索資料集時,Spark 會根據其身分強制執行 Lake Formation 中定義的精細存取控制,確保他們只能檢視授權的資料。所有查詢和資料轉換都會以使用者的身分記錄,從而建立明確的稽核軌跡。這種簡化方法可快速建構新分析產品的原型,同時在用戶端環境中維持嚴格的資料治理。

資料準備與特徵工程

來自多個研究團隊的資料科學家使用統一的資料平台來協作處理複雜的專案。他們使用公司憑證登入 SageMaker Studio,立即存取跨越多個 AWS 帳戶的大量共用資料湖。當他們開始新的機器學習模型的特徵工程時,透過 AWS Glue ETL 啟動的 Spark 工作階段會根據其傳播的身分來強制執行 Lake Formation 的資料欄和資料列層級安全政策。科學家使用熟悉的工具可有效地準備資料和設計功能,同時合規團隊可以確保自動追蹤和稽核每個資料互動。這種安全且協作性環境可加速研究流程,同時維持受監管產業所需的嚴格資料保護標準。

運作方式

顯示 AWS Glue 互動式工作階段工作流程的架構圖。使用者透過 IAM Identity Center 登入面向用戶端的應用程式 (SageMaker Unified Studio 或自訂應用程式)。使用者的身分會傳播到 AWS Glue 互動式工作階段,其會連線到存取控制服務,包括 IAM Identity Center、AWS Lake Formation、AWS Glue Data Catalog 和 Amazon S3 Access Grant,最後才存取 S3 Storage。

使用者透過 IAM Identity Center 使用其公司身分登入面向用戶端的應用程式 (SageMaker AI 或自訂應用程式)。此身分接著會透過整個資料存取管道進行傳播。

已驗證的使用者會啟動 AWS AWS Glue 互動式工作階段,作為資料處理的運算引擎。這些工作階段會在整個工作流程中維護使用者的身分內容。

AWS Lake Formation 和 AWS Glue Data Catalog 協同運作,以強制執行精細存取控制。Lake Formation 根據使用者的傳播身分來套用安全政策,而 Amazon S3 Access Grant 提供額外的許可層級,確保使用者只能存取他們有權檢視的資料。

最後,系統會連線至實際資料所在的 Amazon S3 Storage。所有存取都由合併的安全政策管控,從而維護資料治理,同時啟用互動式資料探索和分析。此架構可跨多項 AWS 服務來啟用安全、基於身分的資料存取,同時為使用大型資料集的資料科學家和工程師提供順暢的使用者體驗。

整合

AWS 管理的開發環境

下列 AWS 管理的面向用戶端的應用程式支援使用 AWS Glue 互動式工作階段進行受信任的身分傳播:

Sagemaker Unified Studio

若要搭配使用受信任的身分傳播與 Sagemaker Unified Studio:

  1. 將已啟用受信任身分傳播的 Sagemaker Unified Studio 專案設定為面向用戶端的開發環境。

  2. 設定 Lake Formation 以根據 IAM Identity Center 中的使用者或群組啟用 AWS Glue 資料表的精細存取控制。

  3. 設定 Amazon S3 存取授權以啟用 Amazon S3 中基礎資料位置的暫時存取。

  4. 開啟 Sagemaker Unified Studio JupyterLab IDE 空間,然後選取 AWS Glue 作為筆記本執行的運算。

客戶管理的自我託管筆記本環境

若要為自訂開發的應用程式使用者啟用受信任的身分傳播,請參閱《AWS 安全部落格》中的使用受信任的身分傳播以程式設計方式存取 AWS 服務