ワークフローの作成

開始する前に、LakeFormationWorkflowRole ロールに必要なデータ許可とデータロケーション許可が付与されていることを確認してください。これは、ワークフローが Data Catalog にメタデータテーブルを作成し、Amazon S3 内のターゲットロケーションにデータを書き込むことができるようにするためです。詳細については、「(オプション) ワークフロー用の IAM ロールを作成する」および「Lake Formation 許可の概要」を参照してください。

注記

Lake Formation は、GetTemplateInstance、GetTemplateInstances、および InstantiateTemplate オペレーションを使用して、ブループリントからワークフローを作成します。これらのオペレーションは一般には公開されておらず、ユーザーに代わってリソースを作成するために内部でのみ使用されます。ユーザーは、ワークフローを作成するための CloudTrail イベントを受け取ります。

ブループリントからワークフローを作成する

https://console.aws.amazon.com/lakeformation/ で AWS Lake Formation コンソールを開きます。データレイク管理者として、またはデータエンジニア許可を持つユーザーとしてサインインします。詳細については、「Lake Formation のペルソナと IAM 許可のリファレンス」を参照してください。
ナビゲーションペインで [Blueprints] (ブループリント) を選択してから、[Use blueprint] (ブループリントを使用) を選択します。
[Use a blueprint] (ブループリントの使用) ページで、ブループリントタイプを選択するタイルを選択します。
[Import source] (インポートソース) で、データソースを指定します。

JDBC ソースからインポートしている場合は、以下を指定します。
- [Database connection] (データベース接続) – リストから接続を選択します。AWS Glue コンソールを使用して、追加の接続を作成します。接続の JDBC ユーザー名とパスワードによって、ワークフローがアクセスできるデータベースオブジェクトが決まります。
- [Source data path] (ソースデータパス) – データベース製品に応じて、<database>/<schema>/<table>、または <database>/<table> を入力します。Oracle データベースと MySQL は、パス内のスキーマをサポートしません。<schema> または <table> は、パーセント (%) 文字に置き換えることができます。例えば、システム識別子 (SID) が orcl の Oracle データベースの場合は、orcl/% を入力して、接続で指定されているユーザーがアクセスできるすべてのテーブルをインポートします。
  
  重要
  このフィールドでは、大文字と小文字が区別されます。いずれかのコンポーネントで大文字と小文字の不一致がある場合は、ワークフローが失敗します。
  
  MySQL データベースを指定した場合、 AWS Glue ETL はデフォルトで Mysql5 JDBC ドライバーを使用するため、MySQL8 はネイティブではサポートされていません。「AWS Glue デベロッパーガイド」の「JDBC connectionType の値」で説明されているように、customJdbcDriverS3Path パラメータを使用するように ETL ジョブスクリプトを編集して、MySQL8 をサポートする別の JDBC ドライバーを使用することができます。
ログファイルからインポートしている場合は、ワークフローに指定するロール (「ワークフローロール」) に、データソースへのアクセスに必要な IAM 許可があることを確認してください。たとえば、 AWS CloudTrail ログをインポートするには、ワークフローの作成中に CloudTrail ログのリストを表示するための cloudtrail:DescribeTrailsおよびアクセスcloudtrail:LookupEvents許可がユーザーに必要です。また、ワークフローロールには Amazon S3 の CloudTrail ロケーションに対するアクセス許可が必要です。
次のいずれかを行います。
- [Database snapshot] (データベーススナップショット) のブループリントタイプの場合は、オプションで、1 つ、または複数の除外パターンを指定することによってインポートするデータのサブセットを特定します。これらの除外パターンは、Unix スタイルの glob パターンです。これらは、ワークフローによって作成されるテーブルのプロパティとして保存されます。
  
  利用可能な除外パターンの詳細については、「AWS Glue デベロッパーガイド」の「包含パターンと除外パターン」を参照してください。
- [Incremental database] (増分データベース) のブループリントタイプの場合は、以下のフィールドを指定します。インポートするテーブルごとに行を追加してください。
  
  [Table name] (テーブル名)
  
  インポートするテーブル。すべて小文字にする必要があります。
  
  [Bookmark keys] (ブックマークキー)
  
  ブックマークキーを定義する列名のカンマ区切りのリスト。空白になっている場合は、新しいデータの判別にプライマリキーが使用されます。各列の大文字と小文字は、データソースで定義されている大文字と小文字と一致する必要があります。
  
  注記
  プライマリキーがデフォルトのブックマークキーとして認められるのは、それがギャップを生じることなく連続的に増加または減少している場合のみです。プライマリキーをブックマークキーとして使用したいが、ギャップがあるという場合は、プライマリキー列をブックマークキーとして指定する必要があります。
  
  [Bookmark order] (ブックマークの順序)
  
  [Ascending] (昇順) を選択すると、ブックマークされた値よりも大きい値を持つ行が新しい行として識別されます。[Descending] (降順) を選択すると、ブックマークされた値より小さい値を持つ行が新しい行として識別されます。
  
  [Partitioning scheme] (パーティショニングスキーム)
  
  (オプション) スラッシュ (/) で区切られた、パーティショニングキー列のリスト。例えば、 year/month/day などです。
  
  詳細については、「AWS Glue デベロッパーガイド」の「ジョブのブックマークを使用した処理済みデータの追跡」を参照してください。
[Import target] (インポートターゲット) で、ターゲットデータベース、ターゲット Amazon S3 ロケーション、およびデータ形式を指定します。

ワークフローロールに、データベースと Amazon S3 ターゲットロケーションに対する必要な Lake Formation 許可があることを確認してください。

注記
現在、ブループリントはターゲットでのデータの暗号化をサポートしていません。
インポートの頻度を選択します。

[Custom] (カスタム) オプションでは、cron 式を指定することができます。
[Import options] (インポートオプション) で以下を実行します。
1. ワークフロー名を入力します。
2. ロールには、「(オプション) ワークフロー用の IAM ロールを作成する」で作成したロール LakeFormationWorkflowRole を選択します。
3. オプションで、テーブルプレフィックスを指定します。プレフィックスは、ワークフローが作成する Data Catalog テーブルの名前の前に付加されます。
[Create] (作成) を選択し、ワークフローが正常に作成されたことコンソールが報告するまで待機します。

ヒント
以下のエラーメッセージが表示されましたか?
User: arn:aws:iam::<account-id>:user/<username> is not authorized to perform: iam:PassRole on resource:arn:aws:iam::<account-id>:role/<rolename>...
その場合は、<account-id> をすべてのポリシーで有効な AWS アカウント番号に置き換えたことを確認します。