列統計の生成のスケジュール管理
AWS Glue の列統計の生成におけるスケジュールの更新、開始、停止、削除などのスケジューリング操作を管理できます。AWS Glue コンソール、AWS CLI、AWS Glue 列統計の API 操作を使用して、これらのタスクを実行できます。
列統計の生成スケジュールの更新
作成後に列統計の生成タスクがトリガーされるように、スケジュールを更新できます。AWS Glue コンソールまたは AWS CLI を使用するか、UpdateColumnStatisticsTaskSettings 操作を実行してテーブルのスケジュールを更新できます。スケジュールタイプ (オンデマンドまたはスケジュールされたもの) やその他のオプションのパラメータなど、既存のスケジュールのパラメータを変更できます。
- AWS マネジメントコンソール
- AWS CLI
-
コンソールで AWS Glue の統計生成機能を使用していない場合、update-column-statistics-task-settings コマンドを使用してスケジュールを手動で更新できます。次の例は、AWS CLI を使用して列統計を更新する方法を示しています。
aws glue update-column-statistics-task-settings \
--database-name 'database_name' \
--table-name 'table_name' \
--role arn:aws:iam::123456789012:role/stats_role \
--schedule 'cron(0 0-5 16 * * ?)' \
--column-name-list 'col-1' \
--sample-size '20.0' \
--catalog-id '123456789012'\
--security-configuration 'test-security'
列統計の生成スケジュールの停止
増分統計が不要になった場合、スケジュールされた生成を停止してリソースおよびコストを節約できます。スケジュールを一時停止しても、以前に生成された統計は影響されません。必要に応じてスケジュールはいつでも再開できます。
- AWS マネジメントコンソール
列統計の生成タスクのスケジュールを停止する方法
AWS Glue コンソールで、[データカタログ] の下の [テーブル] を選択します。
列統計を含むテーブルを選択します。
[テーブルの詳細] ページで、[列統計] を選択します。
[アクション] で、[スケジュールされた生成] および [一時停止] を選択します。
[一時停止] を選択して確認します。
- AWS CLI
-
AWS CLI を使用して列統計タスクの実行スケジュールを停止するには、次のコマンドを使用できます。
aws glue stop-column-statistics-task-run-schedule \
--database-name ''database_name' \
--table-name 'table_name'
database_name および table_name は、列統計のタスク実行スケジュールを停止するデータベースおよびテーブルの実際の名前に置き換えます。
列統計の生成スケジュールの再開
統計の生成スケジュールを一時停止した場合、AWS Glue は必要に応じてスケジュールを再開できるようにします。AWS Glue コンソール、AWS CLI、StartColumnStatisticsTaskRunSchedule 操作を使用してスケジュールを再開できます。
- AWS マネジメントコンソール
列統計の生成スケジュールを再開する方法
AWS Glue コンソールで、[データカタログ] の下の [テーブル] を選択します。
列統計を含むテーブルを選択します。
[テーブルの詳細] ページで、[列統計] を選択します。
[アクション] で [スケジュールされた生成] を選択し、[再開] を選択します。
[再開] を選択して確認します。
- AWS CLI
-
database_name および table_name は、列統計のタスク実行スケジュールを停止するデータベースおよびテーブルの実際の名前に置き換えます。
aws glue start-column-statistics-task-run-schedule \
--database-name 'database_name' \
--table-name 'table_name'
列統計の生成スケジュールの削除
最適なクエリパフォーマンスを得るために最新の統計を維持することが一般的に推奨されますが、自動生成スケジュールを削除すると、有益になる特定のユースケースがあります。
データが比較的に静的な状態が維持される場合、既存の列統計が長期間にわたって正確さが維持される可能性があり、頻繁な更新の必要性が軽減されます。スケジュールを削除すると、変更されていないデータに関する統計の再生成に関連する、不要なリソース消費およびオーバーヘッドを防ぐことができます。
統計の生成より手動の制御が望ましい場合。自動スケジュールを削除することで、特定の間隔または大幅なデータ変更後に、管理者は列統計を選択的に更新し、メンテナンス戦略およびリソース割り当てのニーズに合わせてプロセスを調整することができます。
- AWS マネジメントコンソール
列統計の生成のスケジュールを削除するには:
AWS Glue コンソールで、[データカタログ] の下の [テーブル] を選択します。
列統計を含むテーブルを選択します。
[テーブルの詳細] ページで、[列統計] を選択します。
[アクション] で、[スケジュールされた生成] と [削除] を選択します。
[削除] を選択して確定します。
- AWS CLI
-
database_name および table_name は、列統計のタスク実行スケジュールを停止するデータベースおよびテーブルの実際の名前に置き換えます。
DeleteColumnStatisticsTaskSettings の API オペレーションまたは AWS CLI を使用して、列統計のスケジュールを削除できます。次の例では、AWS Command Line Interface (AWS CLI) を使用して列統計を生成するスケジュールを削除する方法について示されています。
aws glue delete-column-statistics-task-settings \
--database-name 'database_name' \
--table-name 'table_name'