Lake Formation の機能 Lake Formation の使用の開始

とは AWS Lake Formation

AWS Lake Formation デベロッパーガイドへようこそ。

AWS Lake Formation は、分析と機械学習のためにデータを一元管理、保護、グローバルに共有できるようにします。Lake Formation では、Amazon Simple Storage Service (Amazon S3) 上のデータレイクデータと AWS Glue Data Catalogの関連メタデータに対するきめ細かなアクセスコントロールを管理できます。

Lake Formation は、IAM 許可モデルを補強する独自の許可モデルを提供します。Lake Formation アクセス許可モデルを使用すると、リレーショナルデータベース管理システム (RDBMS) と同様に、シンプルな許可または取り消しメカニズムを通じて、データレイクに保存されているデータだけでなく、Amazon Redshift データウェアハウス、 Amazon DynamoDB データベース、サードパーティーデータソースなどの外部データソースへのきめ細かなアクセスが可能になります。Lake Formation のアクセス許可は、Amazon Athena、、Amazon Redshift Spectrum、Amazon EMR、などの AWS 分析および機械学習サービス全体で、列 Amazon Quick、行、セルレベルで詳細な制御を使用して適用されます AWS Glue。

AWS Glue Data Catalog (データカタログ) の Lake Formation ハイブリッドアクセスモードでは、Amazon S3 およびアクションの Lake Formation アクセス許可と IAM アクセス許可ポリシーの両方を使用して、カタログ化されたデータを保護して AWS Glue アクセスできます。ハイブリッドアクセスモードを使用すると、データ管理者は一度に 1 つのデータレイクのユースケースに絞って、選択的かつ段階的に Lake Formation のアクセス許可をオンボーディングできます。

Lake Formation では、複数の AWS 、組織全体、または別のアカウントの IAM プリンシパルとデータを内部および外部で共有し AWS アカウント、Data Catalog メタデータと基盤となるデータにきめ細かなアクセスを提供することもできます。

トピック

Lake Formation の機能

Lake Formation は、データサイロを分解し、異なるタイプの構造化および非構造化データを一元化されたリポジトリに統合するために役立ちます。まず、Amazon S3、またはリレーショナルおよび NoSQL データベース内の既存のデータストアを特定し、データをデータレイクに移動させます。その後、分析のためにデータのクロール、カタログ化、および準備を行います。次に、ユーザーが選択した分析サービス経由でのデータへのセキュアなセルフサービスアクセスをユーザーに提供します。

Lake Formation コンソールを使用して、データカタログにマルチレベルフェデレーティッドカタログを作成し、Amazon S3 データレイクと Amazon Redshift データウェアハウス間でデータを統合できます。また、などの運用データベースや Amazon DynamoDB、Google BigQuery、MySQL などのサードパーティーデータソースからのデータを統合することもできます。データカタログは、一元化されたメタデータリポジトリを提供し、異種システム間でのデータの管理と発見を容易にします。

詳細については、「へのデータの取り込み AWS Glue Data Catalog」を参照してください。

データインジェストと管理

既ににあるデータベースからデータをインポートする AWS

既存のデータベースの場所を指定し、アクセス認証情報を指定すると、Lake Formation がデータソースの内容を理解するためにデータとそのメタデータ (スキーマ) を読み取ります。その後、Lake Formation がデータを新しいデータレイクにインポートし、メタデータを中央カタログに記録します。Lake Formation を使用することで、Amazon RDS で実行されている、または Amazon EC2 でホストされている MySQL、PostgreSQL、SQL Server、MariaDB、および Oracle データベースからデータをインポートできます。データのロードは一括と増分の両方がサポートされています。

その他の外部ソースからデータをインポートする

Lake Formation は、Java Database Connectivity (JDBC) を使用した接続によるオンプレミスデータベースからのデータの移動に使用できます。コンソールでターゲットソースを特定し、アクセス認証情報を提供すると、Lake Formation がデータを読み取って、データレイクにロードします。上記のデータベース以外のデータベースからデータをインポートするには、を使用してカスタム ETL ジョブを作成できます AWS Glue。

データをカタログ化してラベル付けする

AWS Glue クローラを使用して Amazon S3 でデータを読み取ってデータベースとテーブルスキーマを抽出し、そのデータを検索可能なデータカタログに保存できます。次に、Lake Formation Lake Formation のタグベースのアクセス制御 (TBAC) を使用して、データベース、テーブル、列に対するアクセス許可を管理します。Data Catalog へのテーブルの追加に関する詳細については、「でのオブジェクトの作成 AWS Glue Data Catalog」を参照してください。

セキュリティ管理

アクセスコントロールを定義して管理する

Lake Formation では、データレイク内のデータに対するアクセスコントロールを 1 か所で管理できます。データベース、テーブル、列、行、およびセルレベルでデータへのアクセスを制限するセキュリティポリシーを定義できます。これらのポリシーは、IAM ユーザーとロール、および外部のアイデンティプロバイダー経由でフェデレーションするユーザーとグループに適用されます。きめ細かなコントロールを使用して、Amazon Redshift Spectrum、Athena、 AWS Glue ETL、Amazon EMR for Apache Spark 内の Lake Formation で保護されたデータにアクセスできます。IAM ID を作成するときは常に、IAM ベストプラクティスに従うようにしてください。詳細については、「IAM ユーザーガイド」の「セキュリティベストプラクティス」を参照してください。

ハイブリッドアクセスモード

Lake Formation ハイブリッドアクセスモードは、データカタログ内のデータベースとテーブルに対して Lake Formation アクセス許可を選択的に有効にする柔軟性を提供します。ハイブリッドアクセスモードを使用すると、他の既存のユーザーやワークロードのアクセス許可ポリシーを中断することなく、特定のユーザーのセットに Lake Formation 許可を設定できる増分パスが導入されました。詳細については、「ハイブリッドアクセスモード」を参照してください。

監査ロギングを実装する

Lake Formation は、アクセスを監視し、一元的に定義されたポリシーへのコンプライアンスを証明するために、CloudTrail を使用した包括的な監査ログを提供します。Lake Formation を介してデータレイク内のデータを読み取る分析および機械学習サービス全体のデータアクセス履歴を監査できます。この機能により、どのユーザーまたはロールが、どのサービスを使用して、どのデータにいつアクセスしようとしたのかを確認することができます。監査ログには、CloudTrail API とコンソールを使用して他の CloudTrail ログにアクセスするのと同じ方法でアクセスできます。CloudTrail ログの詳細については、「を使用した AWS Lake Formation API コールのログ記録 AWS CloudTrail」を参照してください。

行およびセルレベルのセキュリティ

Lake Formation は、列と行の組み合わせに対するアクセスの制限を可能にするデータフィルターを提供します。行およびセルレベルのセキュリティを使用して、個人を特定できる情報 (PII) などの機密データを保護します。行レベルのセキュリティに関する詳細については、「Lake Formation でのデータフィルタリングとセルレベルのセキュリティ」を参照してください。

タグベースのアクセス制御

Lake Formation 属性ベースのアクセスコントロールを使用して、LF タグと呼ばれるカスタムラベルを作成して、数百または数千のデータアクセス許可を管理します。LF タグを定義して、データベース、テーブル、または列にアタッチできるようになりました。次に、分析、機械学習 (ML)、および抽出、変換、ロード (ETL) サービス間で制御されたアクセスを共有して利用します。LF タグを使用すると、何千ものリソースのポリシー定義をいくつかの論理タグに置き換えることで、データガバナンスを簡単にスケールできます。Lake Formation は、このメタデータに対するテキストベースの検索機能を提供するため、ユーザーは分析する必要があるデータをすばやく見つけることができます。

属性ベースのアクセスコントロール

属性ベースのアクセスコントロールを使用して、Data Catalog オブジェクトへのアクセスを許可します。属性ベースのアクセスコントロール (ABAC) は、属性に基づいてアクセス許可を定義する認可戦略です。はこれらの属性タグを AWS 呼び出します。ABAC を使用して、同じアカウント内、またはデータカタログリソース上の別のアカウント内のプリンシパルにアクセスを許可できます。一致する IAM タグまたはセッションタグのキーと値を持つすべての IAM プリンシパルがリソースにアクセスできます。これらの許可を行うには、リソースに対する付与可能なアクセス許可が必要です。

クロスアカウントアクセス

Lake Formation のアクセス許可管理機能は、一元化されたアプローチを通じて複数の AWS アカウントにわたる分散データレイクの保護と管理を簡素化し、データカタログと Amazon S3 ロケーションへのきめ細かなアクセスコントロールを提供します。詳細については、「Lake Formation でのクロスアカウントデータ共有」を参照してください。

フェデレーション機能を使用すると、データやメタデータを Amazon S3 またはに移行することなく、フェデレーションカタログを作成し、Amazon Redshift などのさまざまなデータソースに保存されているデータセットに対するアクセス許可を設定できます AWS Glue Data Catalog。次の方法を使用して、Lake Formation で外部データセットに対するデータの取得とアクセス許可の管理を行うことができます。

詳細については、「AWS Glue Data Catalogへのデータの取り込み」を参照してください。

Amazon Redshift データウェアハウスのデータのへの取り込み AWS Glue Data Catalog – 既存の Amazon Redshift 名前空間またはクラスターをデータカタログに登録し、データカタログにマルチレベルフェデレーティッドカタログを作成します。

Amazon EMR Serverless や Amazon Athena などの、Apache Iceberg REST カタログ OpenAPI 仕様と互換性のある任意のクエリエンジンを使用してデータにアクセスできます。

詳細については、「Amazon Redshift データをに取り込む AWS Glue Data Catalog」を参照してください。
外部データソースから Data Catalog にフェデレーションする – AWS Glue 接続を使用して Data Catalog を外部データソースに接続し、フェデレーションカタログを作成して Lake Formation を使用してデータセットへのアクセス許可を一元管理します。データカタログへのメタデータの移行は不要です。

詳細については、「の外部データソースへのフェデレーション AWS Glue Data Catalog」を参照してください。
Amazon S3 テーブルバケットとデータカタログの統合 – Amazon S3 テーブルをデータカタログオブジェクトとして公開およびカタログ化し、Lake Formation コンソールまたは AWS Glue APIs を使用して、カタログを Lake Formation データの場所として登録できます。

詳細については、「Amazon S3 Tables と AWS Glue Data Catalog およびの統合 AWS Lake Formation」を参照してください。
データカタログで Amazon Redshift テーブルを管理するカタログを作成する – 現在、Amazon Redshift プロデューサークラスターや Amazon Redshift データ共有を使用できない場合がありますが、Data Catalog を使用して Amazon Redshift テーブルを作成および管理する必要があります。glue:CreateCatalog API または AWS Lake Formation コンソールを使用して AWS Glue マネージドカタログを作成するには、カタログタイプを Catalog source Redshift として設定Managedします。

詳細については、「での Amazon Redshift マネージドカタログの作成 AWS Glue Data Catalog」を参照してください。
Lake Formation と Amazon Redshift データ共有の統合 – Lake Formation を使用すると、Amazon Redshift データ共有のデータベース、テーブル、列、および行レベルのアクセス許可を一元管理し、データ共有内のオブジェクトへのユーザーアクセスを制限できます。
Data Catalog を外部メタストアに接続する – 外部メタストア AWS Glue Data Catalog に接続して、Lake Formation を使用して Amazon S3 のデータセットに対するアクセス許可を管理します。データカタログへのメタデータの移行は不要です。

詳細については、「外部メタストアを使用するデータセットのアクセス許可の管理」を参照してください。
Lake Formation と AWS Data Exchange の統合 – Lake Formation は、を介したデータへのアクセスのライセンスをサポートしています AWS Data Exchange。Lake Formation データのライセンスに関心をお持ちの場合は、AWS Data Exchange ユーザーガイドの「AWS Data Exchangeとは」を参照してください。

Lake Formation の使用の開始

以下のセクションから開始することが推奨されます。

AWS Lake Formation: 仕組み – 重要な用語と、様々なコンポーネントが相互作用する方法を学びます。
Lake Formation の使用の開始 – 前提条件に関する情報を入手して、重要なセットアップタスクを完了します。
AWS Lake Formation チュートリアル – ステップバイステップのチュートリアルに従って、Lake Formation の使用方法を学びます。
AWS Lake Formation のセキュリティ – Lake Formation でのデータへのアクセスをセキュア化する方法を理解します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

使用方法

とは AWS Lake Formation

トピック

Lake Formation の機能

トピック

データインジェストと管理

既に にあるデータベースからデータをインポートする AWS

その他の外部ソースからデータをインポートする

データをカタログ化してラベル付けする

セキュリティ管理

アクセスコントロールを定義して管理する

ハイブリッドアクセスモード

監査ロギングを実装する

行およびセルレベルのセキュリティ

タグベースのアクセス制御

属性ベースのアクセスコントロール

クロスアカウントアクセス

Bring your data into the Data Catalog

Lake Formation の使用の開始

既ににあるデータベースからデータをインポートする AWS