

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# Lake Formation のブループリントとワークフロー
<a name="workflows-about"></a>

ワークフローは、複雑なマルチジョブの抽出、変換、ロード (ETL) アクティビティをカプセル化します。ワークフローは、データのロードと更新をオーケストレートするために、AWS Glue クローラー、ジョブ、およびトリガーを生成します。Lake Formation は、ワークフローを単一のエンティティとして実行し、追跡します。ワークフローは、オンデマンドで、またはスケジュールに従って実行されるように設定できます。

**注記**  
Spark Parquet ライターは、列名での特殊文字をサポートしていません。これはライター自体の技術的な制限であり、設定の問題ではありません。

Lake Formation で作成するワークフローは、AWS Glue コンソールに DAG (Directed Acyclic Graph) として表示されます。各 DAG ノードは、ジョブ、クローラ、またはトリガーです。進捗状況のモニタリングとトラブルシューティングを行うために、ワークフロー内の各ノードのステータスを追跡することができます。

Lake Formation ワークフローが完了すると、ワークフローを実行したユーザーには、ワークフローが作成する Data Catalog テーブルに対する Lake Formation の `SELECT` 許可が付与されます。

ワークフローは AWS Glue で作成することもできますが、Lake Formation ではブループリントからワークフローを作成できるため、Lake Formation でのワークフローの作成は、よりシンプルで、自動的です。Lake Formation は、以下のタイプのブループリントを提供します。
+ **[Database snapshot]** (データベーススナップショット) – すべてのテーブルからのデータを、JDBC ソースからデータレイクにロードまたは再ロードします。除外パターンに基づいて、一部のデータをソースから除外することができます。
+ **[Incremental database]** (増分データベース) – 以前に設定されたブックマークに基づいて、新しいデータだけを JDBC ソースからデータレイクにロードします。これに含める JDBC ソースデータベース内の個々のテーブルは、ユーザーが指定します。ブックマーク列とブックマークのソート順をテーブルごとに選択して、以前にロードされたデータを把握しておきます。一連のテーブルに対して増分データベースブループリントを初めて実行すると、ワークフローがそれらのテーブルからすべてのデータをロードして、次回の増分データベースブループリントの実行のためにブックマークを設定します。このため、データソース内の各テーブルをパラメータとして指定しておけば、データベーススナップショットブループリントではなく、増分データベースブループリントを使用して、すべてのデータをロードすることができます。
+ [**Log file**] (ログファイル) – AWS CloudTrail、Elastic Load Balancing ログ、Application Load Balancer ログなどのログファイルソースからのデータを一括でロードします。

以下の表を使用して、データベーススナップショットと増分データベースブループリントのどちらを使用するかを決定してください。


| データベーススナップショットを使用する状況 | 増分データベースを使用する状況 | 
| --- | --- | 
|  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/workflows-about.html)  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/lake-formation/latest/dg/workflows-about.html)  | 

**注記**  
Lake Formation によって作成されたブループリントとワークフローを編集することはできません。