本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
存取資料表資料
有多種方式可存取 Amazon S3 資料表儲存貯體中的資料表,您可以使用 Amazon SageMaker Lakehouse 整合資料表與 AWS 分析服務,或使用 Amazon S3 Tables Iceberg REST 端點或 Amazon S3 Tables Catalog for 直接存取資料表Apache Iceberg。您使用的存取方法將取決於您的目錄設定、治理模型和存取控制需求。以下是這些存取方法的概觀。
- Amazon SageMaker 資料湖倉整合
這是在 S3 資料表儲存貯體中使用資料表的建議存取方法。整合可讓您跨多個 AWS 分析服務進行統一的資料表管理、集中式控管和精細存取控制。整合之後,您可以在 Athena 和 Amazon Redshift 等服務中查詢資料表。
- 直接存取
如果您需要使用 AWS Partner Network (APN) 目錄實作、自訂目錄實作,或只需要對單一資料表儲存貯體中的資料表執行基本讀取/寫入操作,請使用此方法。
注意
若要存取資料表,您使用的 IAM 身分需要存取資料表資源和 S3 資料表動作。如需詳細資訊,請參閱S3 Tables 的存取管理。
透過 Amazon SageMaker 資料湖倉整合存取資料表
您可以將 S3 資料表儲存貯體與 Amazon SageMaker Lakehouse 整合,以從 AWS 分析服務存取資料表,例如 Amazon Athena、Amazon Redshift 和 Quick Suite。Amazon SageMaker 資料湖倉可以統一 Amazon S3 資料湖和 Amazon Redshift 資料倉儲中的資料,以便您在單一資料複本上建立分析、機器學習 (ML) 和生成式 AI 應用程式。整合 AWS Glue Data Catalog 會將資料表資源填入 ,並將這些資源的存取權與 聯合 AWS Lake Formation。若需有關整合的詳細資訊,請參閱 將 Amazon S3 Tables 與 AWS 分析服務整合。
整合透過 啟用精細存取控制 AWS Lake Formation ,以提供額外的安全性。Lake Formation 使用自己的許可模型和 IAM 許可模型的組合,控制對資料表資源和基礎資料的存取。這表示存取資料表的請求必須通過 IAM 和 Lake Formation 許可權的審查。如需詳細資訊,請參閱《AWS Lake Formation 開發人員指南》中的 Lake Formation 許可概觀。
下列 AWS 分析服務可以透過此整合存取資料表:
使用 AWS GlueIceberg REST 端點存取資料表
S3 資料表儲存貯體與 Amazon SageMaker 資料湖倉整合後,您也可以使用 AWS GlueIceberg REST 端點從支援 Iceberg 的第三方查詢引擎連線至 S3 資料表。如需詳細資訊,請參閱使用 AWS GlueIceberg REST 端點存取 Amazon S3 Tables。
當您想要從 Spark、PyIceberg 或其他與 Iceberg 相容的用戶端存取資料表時,建議使用 AWS GlueIceberg REST 端點。
下列用戶端可以透過 AWS GlueIceberg REST 端點直接存取資料表:
任何 Iceberg 用戶端,包括 Spark、PyIceberg 等。
直接存取資料表
您可以透過將 S3 Tables 管理作業橋接至 Apache Iceberg 分析應用程式的方法,直接從開放原始碼查詢引擎存取資料表。有兩種直接存取方法:Amazon S3 Tables Iceberg REST 端點。或 Amazon S3 Tables Catalog for Apache Iceberg。建議使用 REST 端點。
如果您存取自我管理目錄實作中的資料表,或只需對單一資料表儲存貯體中的資料表執行基本讀取/寫入操作,建議您直接存取。對於其他存取案例,建議使用 Amazon SageMaker 資料湖倉整合。
資料表的直接存取,是透過連接到資料表和資料表儲存貯體的 IAM 身分型政策或資源型政策來管理。當直接存取資料表時,您不需要管理資料表的 Lake Formation 許可。
透過 Amazon S3 Tables Iceberg REST 端點存取資料表
您可以使用 Amazon S3 Tables Iceberg REST 端點,透過 HTTP 端點直接從任何與 Iceberg REST 相容的用戶端存取資料表。如需詳細資訊,請參閱 使用 Amazon S3 Tables Iceberg REST 端點存取資料表。
下列 AWS 分析服務和查詢引擎可以使用 Amazon S3 Tables Iceberg REST 端點直接存取資料表:
支援的查詢引擎
任何 Iceberg 用戶端,包括 Spark、PyIceberg 等。
透過 Amazon S3 Tables Catalog for Apache Iceberg 直接存取資料表
您也可以透過使用 S3 Tables 用戶端目錄,直接從查詢引擎 (例如 Apache Spark) 存取資料表。如需詳細資訊,請參閱 使用 Amazon S3 Tables Catalog for Apache Iceberg 存取 Amazon S3 Tables。不過,S3 建議使用 Amazon S3 Tables Iceberg REST 端點進行直接存取,因為該端點支援更多應用程式,而不需要特定的語言或引擎程式碼。
下列查詢引擎可以使用用戶端目錄直接存取資料表: