本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
統一連線
AWS 最近推出一項新功能,稱為「SageMaker LakeHouse 連線」或「AWS Glue 統一連線」。此功能可讓您建立可供多個 AWS 服務使用的連線,例如 AWS Glue 和 Amazon Athena。當您在 Amazon Athena 中建立資料來源時,會注意到參考 AWS Glue 連線輸入的區段。在此情況下,Amazon Athena 會為您建立 AWS Glue 連線,包括連線的 `AthenaProperties` 區段中的任何 Amazon Athena 特定屬性。
另一方面,如果您直接在 AWS Glue 中建立連線,則只會提示您輸入特定於 AWS Glue 和 Apache Spark 的屬性,其會存放在連線的 `ConnectionProperties` 和 `SparkProperties` 區段中。
這兩種情況都會導致建立「統一連線」,但在 Amazon Athena 中建立的連線只會設定為在 Amazon Athena 內使用,而在 AWS Glue 中建立的連線只會設定為在 AWS Glue 內使用。不過,可以使用缺少的屬性 (Amazon Athena 或 Spark 屬性) 來更新這些連線,讓這兩個服務都可以使用。Amazon SageMaker AIUnified Studio 透過在 AWS Glue 連線上填入所有必要屬性 (`ConnectionProperties`、`AthenaProperties` 和 `SparkProperties`) 來自動處理此問題,確保 AWS Glue 和 Amazon Athena 都可以使用連線。
請務必注意,雖然我們將這些稱為「統一連線」,但在 AWS Glue 或 Amazon Athena 中單獨建立的連線不會真正統一,除非其已正確設定為供這兩個服務使用。只有透過 SageMaker Unified Studio 建立的連線才能真正統一,並可由多個服務立即使用。
此外,在 AWS Glue 中建立的連線不會在 Amazon Athena 中顯示,因為 Amazon Athena 會顯示資料來源,其中包含 AWS Glue 連線的參考,但不是 AWS Glue 連線本身。同樣,在 Amazon Athena 中建立的連線不會出現在 AWS Glue Studio 中,因為 AWS Glue Studio 會篩選掉任何尚未設定 AWS Glue 所需設定的連線。
AWS Glue Studio 預設會建立統一連線。在 AWS Glue 主控台中,可以在連線頁面的連線資料表、連線詳細資訊頁面以及任務詳細資訊頁面的連線資料表中查看連線的版本。
連線版本會顯示在連線詳細資訊中:
檢視所有連線時,也會顯示連線版本。
最後,連線版本會顯示在任務的任務詳細資訊索引標籤中。
使用第 2 版連線時,您擁有下列已擴充的資料連線功能:
-
連線類型探索:支援使用標準化範本來建立連線。AWS Glue 會自動探索您可以存取的連線類型,以及指定連線類型的必要和選用輸入。
-
可重複使用性:可跨 AWS 資料處理引擎和工具來重複使用的連線定義,例如 AWS Glue、Amazon Athena 和 Amazon SageMaker AI。連線現在包含 AthenaProperties、SparkProperties、PythonProperties,除了 ConnectionProperties 中儲存的常見屬性之外,還允許指定運算環境/服務特定的連線屬性。Athena 現在透過在 AthenaProperties 屬性映射中指定 Athena 特定屬性,在 AWS Glue 中建立連線。
-
資料預覽:能夠從連線來源中瀏覽中繼資料並預覽資料。
-
連接器中繼資料:可以使用可重複使用的連線來探索資料表中繼資料。
-
服務連結機密:使用者可以在
CreateConnection請求中提供必要的 OAuth、基本或自訂身分驗證憑證。CreateConnection API 會在您的帳戶中建立服務連結機密,並代表您存放憑證。
支援的身分驗證類型
統一連線支援下列身分驗證類型:
-
BASIC – 大多數資料庫連線類型和現有的 AWS Glue 連線類型都支援基本身分驗證,也就是使用者名稱和密碼。先前,SecretsManager 中金鑰的命名是特定於連接器的,例如,可能是 user、username、userName、opensearch.net.http.auth.user 等。這是統一連線標準化 USERNAME 和 PASSWORD 金鑰上的基本身分驗證連線類型的位置。
-
OAUTH2 – 大多數新啟動的 SAAS 連線類型都支援 OAUTH2 通訊協定。
-
自訂 – 一些連線類型具有一些其他身分驗證機制,例如 GOOGLE BIGQUERY,其中預期使用者會提供他們從 GOOGLE BIGQUERY 中取得的 JSON。
考量事項
當您為資料來源建立統一連線時,請考慮下列差異:
-
透過 AWS Glue Studio 建立統一連線時,使用者憑證會存放在 AWS Secrets Manager 中,而非連線本身。這表示任務現在需要存取 Secrets Manager。
-
如果任務在 VPC 中執行,則需要 VPC 端點或 NAT 閘道才能存取 AWS Secrets Manager 和 Secure Token Service (STS),這會產生額外費用。
-
對於某些資料來源 (Redshift、SQL Server、MySQL、Oracle、PostgreSQL),透過 AWS Glue Studio 建立統一連線需要存取 AWS STS 和 AWS Secrets Manager。這是在虛擬私有雲端 (VPC) 中建立安全連線並擷取所需憑證來存取這些資料來源所必需的。
-
透過 AWS Glue Studio 建立統一連線需要具有存取 AWS Secrets Manager 和管理 VPC 資源 (如果使用 VPC) 許可的 IAM 角色:
secretsmanager:GetSecretValue
secretsmanager:PutSecretValue
secretsmanager:DescribeSecret
ec2:CreateNetworkInterface
ec2:DeleteNetworkInterface
ec2:DescribeNetworkInterfaces
ec2:DescribeSubnets