AWS Glue クローラーを使用して大きなデータセットをクエリする - AWS Step Functions

AWS Glue クローラーを使用して大きなデータセットをクエリする

このサンプルプロジェクトは、ラージデータセットを Amazon S3 に取り込み、それを AWS Glue クローラを通じてパーティション化し、その後、そのパーティションに対して Amazon Athena クエリを実行する方法を示します。

このプロジェクトでは、Step Functions ステートマシンは、Amazon S3 で大規模なデータセットを分割する AWS Glue クローラを呼び出します。AWS Glue クローラが成功メッセージを返すと、ワークフローはそのパーティションに対してAthena クエリを実行します。クエリの実行が正常に完了すると、Amazon SNS 通知が Amazon SNS トピックに送信されます。

ステップ 1: ステートマシンを作成する

  1. Step Functions コンソールを開き、[ステートマシンの作成] を選択します。

  2. [テンプレートから作成] を選択し、関連するスターターテンプレートを見つけます。[次へ] を選択して続行します。

  3. テンプレートの使用方法を選択します。

    1. デモの実行 – 読み取り専用のステートマシンを作成します。確認後、ワークフローとすべての関連リソースを作成できます。

    2. その上に構築する – 編集可能なワークフロー定義が提供され、内容を確認・カスタマイズし、独自のリソースでデプロイできます (関数やキューなどの関連リソースは自動的には作成されません)。

  4. [テンプレートの使用] を選択して選択を続行します。

    注記

    アカウントにデプロイされたサービスには、Standard 料金が適用されます。

ステップ 2: デモステートマシンを実行する

[デモの実行] オプションを選択した場合、すべての関連リソースがデプロイされ、実行準備が整います。[その上に構築する] オプションを選択した場合は、プレースホルダー値の設定や、カスタムワークフローの実行に必要な追加リソースの作成が必要になることがあります。

  1. [Deploy and run] (デプロイと実行) を選択します。

  2. CloudFormation スタックがデプロイされるのを待ちます。これには最大 10 分かかることがあります。

  3. [実行を開始] オプションが表示されたら、[入力] を確認し、[実行を開始] を選択します。

お疲れ様でした。

これで、ステートマシンのデモが実行されます。グラフビューでステートを選択すると、入力、出力、変数、定義、イベントを確認できます。