View a markdown version of this page

管理產生資料欄統計資料的排程 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

管理產生資料欄統計資料的排程

可以管理排程操作,例如更新、啟動、停止和刪除 AWS Glue中產生資料欄統計資料的排程。您可以使用 AWS Glue 主控台 AWS CLI或AWS Glue 資料欄統計資料 API 操作來執行這些任務。

更新資料欄統計資料產生排程

可以更新排程,在建立資料欄統計資料產生任務之後觸發其。您可以使用 AWS Glue 主控台 AWS CLI,或執行 UpdateColumnStatisticsTaskSettings 操作來更新資料表的排程。可以修改現有排程的參數,例如排程類型 (隨需或排定) 和其他選用參數。

AWS 管理主控台
若要更新資料欄統計資料產生任務的設定
  1. 在 https://https://console.aws.amazon.com/glue/ 登入 AWS Glue 主控台。

  2. 選擇您要從資料表清單中更新的資料表。

  3. 在資料表詳細資料頁面的下面部分中,選擇資料欄統計資料

  4. 動作下,選擇編輯以更新排程。

  5. 對排程進行所需變更,然後選擇儲存

AWS CLI

如果您未在 主控台中使用 AWS Glue統計資料產生功能,您可以使用 update-column-statistics-task-settings命令手動更新排程。下列範例顯示如何使用 AWS CLI更新資料欄統計資料。

aws glue update-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name' \ --role arn:aws:iam::123456789012:role/stats_role \ --schedule 'cron(0 0-5 16 * * ?)' \ --column-name-list 'col-1' \ --sample-size '20.0' \ --catalog-id '123456789012'\ --security-configuration 'test-security'

停止產生資料欄統計資料的排程

如果不再需要增量統計資料,可以停止已排程的產生,以節省資源和成本。暫停排程不會影響先前產生的統計資料。可以在方便時繼續排程。

AWS 管理主控台
若要停止資料欄統計資料產生任務的排程
  1. 在 AWS Glue 主控台上,選擇 Data Catalog 下的資料表

  2. 選取包含資料欄統計資料的資料表。

  3. 資料表詳細資料頁面中,選擇資料資料欄統計資料

  4. 動作下,選擇已排程產生,然後選擇暫停

  5. 選擇暫停以確認。

AWS CLI

若要使用 停止資料欄統計資料任務執行排程 AWS CLI,您可以使用下列命令:

aws glue stop-column-statistics-task-run-schedule \ --database-name ''database_name' \ --table-name 'table_name'

database_nametable_name 取代為您要對其停止資料欄統計資料任務執行排程的資料庫和資料表的實際名稱。

繼續產生資料欄統計資料的排程

如果您已暫停統計資料產生排程, AWS Glue 可讓您在方便的時候繼續排程。您可以使用 主控台 AWS CLI或 StartColumnStatisticsTaskRunSchedule 操作繼續排程 AWS Glue 。

AWS 管理主控台
若要繼續產生資料欄統計資料的排程
  1. 在 AWS Glue 主控台上,選擇 Data Catalog 下的資料表

  2. 選取包含資料欄統計資料的資料表。

  3. 資料表詳細資料頁面中,選擇資料資料欄統計資料

  4. 動作下,選擇已排程產生,然後選擇繼續

  5. 選擇繼續以確認。

AWS CLI

database_nametable_name 取代為您要對其停止資料欄統計資料任務執行排程的資料庫和資料表的實際名稱。

aws glue start-column-statistics-task-run-schedule \ --database-name 'database_name' \ --table-name 'table_name'

刪除資料欄統計資料產生排程

儘管通常建議保持最新統計資料以獲得最佳查詢效能,但在某些特定使用案例中,移除自動產生排程可能是有益的。

  • 如果資料保持相對靜態,則現有的資料欄統計資料可能會長時間保持準確,從而減少頻繁更新的需求。刪除排程可防止因重新產生未變更資料的統計資料所導致的不必要的資源耗用和開銷。

  • 偏好手動控制統計資料產生時。透過刪除自動排程,管理員可以在特定間隔或在重大資料變更後選擇性地更新資料欄統計資料,使該程序與其維護策略和資源配置需求保持一致。

AWS 管理主控台
若要刪除產生資料欄統計資料的排程
  1. 在 AWS Glue 主控台上,選擇 Data Catalog 下的資料表

  2. 選取包含資料欄統計資料的資料表。

  3. 資料表詳細資料頁面中,選擇資料資料欄統計資料

  4. 動作下,選擇已排程產生,然後選擇刪除

  5. 選擇刪除以確認。

AWS CLI

database_nametable_name 取代為您要對其停止資料欄統計資料任務執行排程的資料庫和資料表的實際名稱。

可以使用 DeleteColumnStatisticsTaskSettings API 操作或 AWS CLI來刪除資料欄統計資料。下列範例示範如何使用 AWS Command Line Interface () 刪除產生資料欄統計資料的排程AWS CLI。

aws glue delete-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name'