建立 Amazon S3 資料表 - Amazon Simple Storage Service

建立 Amazon S3 資料表

Amazon S3 資料表是資料表儲存貯體的子資源。因為資料表以 Apache Iceberg 格式儲存,所以您可以透過使用查詢引擎和其他支援 Apache Iceberg 的應用程式來使用這些資料表。Amazon S3 會持續最佳化您的資料表,以協助降低儲存成本並提高分析查詢效能。

當您建立資料表時,Amazon S3 會自動產生資料表的倉儲位置。倉儲位置是唯一的 S3 位置,您可以在其中讀取和寫入與資料表相關聯的物件。下列範例顯示倉儲位置的格式:

s3://63a8e430-6e0b-46f5-k833abtwr6s8tmtsycedn8s4yc3xhuse1b--table-s3

資料表具有下列 Amazon Resource Name (ARN) 格式:

arn:aws:s3tables:region:owner-account-id:bucket/bucket-name/table/table-id

根據預設,您最多可以在資料表儲存貯體中建立 10,000 個資料表。若要請求提高資料表儲存貯體或資料表的配額,請聯絡 支援

藉由使用連接至資料表儲存貯體的 Amazon S3 主控台、Amazon S3 REST API、AWS SDK、AWS Command Line Interface (AWS CLI) 或查詢引擎,您便可以建立資料表。

建立資料表時,您可以指定該資料表的加密設定,除非是使用 Athena 建立資料表。如果未指定加密設定,則您會使用資料表儲存貯體的預設設定來加密資料表。如需更多詳細資訊,請參閱 指定資料表加密

建立資料表的先決條件

若要建立資料表,您必須先執行下列動作:

  • 建立資料表儲存貯體.

  • 資料表儲存貯體中的 建立命名空間。

  • 請確保您擁有 s3tables:CreateTables3tables:PutTableData 的 AWS Identity and Access Management (IAM) 權限。

  • 注意

    如果您為資料表使用 SSE-KMS 加密,則需要 s3tables:PutTableEncryption 的許可權,以及所選 AWS KMS 金鑰的 DescribeKey 許可權。此外,您使用的 AWS KMS 金鑰需要授予 S3 Tables 執行自動資料表維護的權限。如需詳細資訊,請參閱S3 Tables SSE-KMS 加密的許可要求

如需有效資料表名稱的相關資訊,請參閱 資料表和命名空間的命名規則

重要

建立資料表時,請務必在資料表名稱和資料表定義中,全部都使用小寫字母。例如,確定欄的名稱都小寫。如果您的資料表名稱或資料表定義包含大寫字母,則 AWS Lake Formation 或 AWS Glue Data Catalog 不支援資料表。在這種情況下,即使您的資料表儲存貯體與 AWS 分析服務整合,如 Amazon Athena 之類的 AWS 分析服務也看不到您的資料表。

如果您的資料表定義包含大寫字母,您在 Athena 中執行 SELECT 查詢時會收到下列錯誤訊息:"GENERIC_INTERNAL_ERROR: Get table request failed: com.amazonaws.services.glue.model.ValidationException: Unsupported Federation Resource - Invalid table or column names."

下列程序會使用 Amazon S3 主控台建立具有 Amazon Athena 的資料表。如果您尚未在資料表儲存貯體中建立命名空間,您可以在此程序中執行此操作。在執行下列步驟之前,請確定您已將資料表儲存貯體與此區域中的 AWS 分析服務整合在一起。如需更多詳細資訊,請參閱 將 Amazon S3 Tables 與 AWS 分析服務整合在一起

注意

當您使用 Athena 建立資料表時,該資料表會從資料表儲存貯體繼承預設加密設定。如果您想要使用不同的加密類型,您需要使用其他方法建立資料表。

若要建立資料表
  1. 登入 AWS 管理主控台,並開啟位於 https://console.aws.amazon.com/s3/ 的 Amazon S3 主控台。

  2. 在左側導覽窗格中,選擇資料表儲存貯體

  3. 資料表儲存貯體頁面上,選擇要建立資料表的儲存貯體。

  4. 在儲存貯體詳細資訊頁面上,選擇使用 Athena 建立資料表

  5. 使用 Athena 建立資料表對話方塊中,執行下列其中一項操作:

    • 建立新命名空間。選擇建立命名空間,然後在命名空間名稱欄位中輸入名稱。命名空間名稱必須具有 1 到 255 個字元,而且在資料表儲存貯體中是唯一的。有效字元為 a-z、0-9 和 _ (_)。命名空間名稱開頭不得為底線。

    • 選擇 Create namespace (建立命名空間)

    • 指定現有的命名空間。選擇指定此資料表儲存貯體中的現有命名空間。然後選擇從現有命名空間中選擇輸入現有命名空間名稱。如果您的儲存貯體中有超過 1,000 個命名空間,而當命名空間名稱未出現在清單中時,您必須輸入命名空間名稱。

  6. 選擇使用 Athena 建立資料表

  7. Amazon Athena 主控台隨即開啟,並顯示 Athena 查詢編輯器。目錄欄位應填入 s3tablescatalog/,後面接資料表儲存貯體的名稱,例如 s3tablescatalog/amzn-s3-demo-bucket資料庫欄位應填入您先前建立或選取的命名空間。

    注意

    如果在目錄資料庫欄位中沒有看到這些值,請確定您已將資料表儲存貯體與此區域中的 AWS 分析服務整合在一起。如需更多詳細資訊,請參閱 將 Amazon S3 Tables 與 AWS 分析服務整合在一起

  8. 查詢編輯器會填入可用來建立資料表的查詢範例。修改查詢以指定您希望資料表擁有的資料表名稱和欄位。

  9. 修改完查詢後,請選擇執行以建立資料表。

    注意
    • 如果您嘗試在 Athena 中執行查詢時收到錯誤訊息:「執行查詢的權限不足。主體對指定資源沒有任何權限」,您必須獲得資料表上必要的 Lake Formation 許可權。如需更多詳細資訊,請參閱 授予資料表或資料庫的 Lake Formation 許可

    • 如果您在嘗試在 Athena 中執行查詢時收到錯誤訊息:「Iceberg 無法存取請求的資源」,請前往 AWS Lake Formation 主控台,確定您已將您建立資料表儲存貯體目錄和資料庫 (命名空間) 的許可權授予自己。授予這些許可權時,請勿指定資料表。如需更多詳細資訊,請參閱 授予資料表或資料庫的 Lake Formation 許可

    • 如果您在 Athena 中執行 SELECT 查詢時收到下列錯誤訊息,而此訊息的肇因來自資料表名稱中有大寫字母,或資料表定義中有欄名稱:"GENERIC_INTERNAL_ERROR: Get table request failed: com.amazonaws.services.glue.model.ValidationException: Unsupported Federation Resource - Invalid table or column names." 請確定您的資料表和欄名稱都是小寫。

如果您的資料表建立成功,新資料表的名稱會出現在 Athena 中的資料表清單中。當您導覽回到 Amazon S3 主控台時,新資料表會在重新整理清單後,出現在資料表的儲存貯體詳細資訊頁面上的資料表清單中。

此範例示範如何藉由使用 AWS CLI 建立具有結構描述的資料表,並透過 JSON 指定資料表中繼資料。若要使用此範例,請以您自己的資訊取代 user input placeholders

aws s3tables create-table --cli-input-json file://mytabledefinition.json

針對 mytabledefinition.json 檔案,使用下列範例資料表定義。若要使用此範例,請以您自己的資訊取代 user input placeholders

{ "tableBucketARN": "arn:aws:s3tables:us-east-1:111122223333:bucket/amzn-s3-demo-table-bucket", "namespace": "your_namespace", "name": "example_table", "format": "ICEBERG", "metadata": { "iceberg": { "schema": { "fields": [ {"name": "id", "type": "int","required": true}, {"name": "name", "type": "string"}, {"name": "value", "type": "int"} ] } } } }

您可以在連接到資料表儲存貯體的支援查詢引擎中建立資料表,例如在 Amazon EMR 的 Apache Spark 工作階段中。

下列範例示範如何透過使用 CREATE 陳述式,以 Spark 建立資料表,並透過使用 INSERT 陳述式或從現有檔案讀取資料,新增資料表資料。若要使用此範例,請以您自己的資訊取代 user input placeholders

spark.sql( " CREATE TABLE IF NOT EXISTS s3tablesbucket.example_namespace.`example_table` ( id INT, name STRING, value INT ) USING iceberg " )

建立資料表之後,您可以將資料載入資料表。請選擇下列其中一種方法:

  • 使用 INSERT 陳述式將資料新增至資料表。

    spark.sql( """ INSERT INTO s3tablesbucket.my_namespace.my_table VALUES (1, 'ABC', 100), (2, 'XYZ', 200) """)
  • 載入現有的資料檔案。

    1. 將資料讀取至 Spark:

      val data_file_location = "Path such as S3 URI to data file" val data_file = spark.read.parquet(data_file_location)
    2. 將資料寫入 Iceberg 資料表:

      data_file.writeTo("s3tablesbucket.my_namespace.my_table").using("Iceberg").tableProperty ("format-version", "2").createOrReplace()