の Amazon DataZone データソースを作成して実行するAWS Glue Data Catalog - Amazon DataZone

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

の Amazon DataZone データソースを作成して実行するAWS Glue Data Catalog

Amazon DataZone では、データベーステーブルの技術メタデータをインポートするためのAWS Glue Data Catalogデータソースを作成できますAWS Glue。のデータソースを追加するにはAWS Glue Data Catalog、ソースデータベースが既に存在している必要がありますAWS Glue。

AWS Glueデータソースを作成して実行するときは、ソースAWS Glueデータベースから Amazon DataZone プロジェクトのインベントリにアセットを追加します。AWS Glueデータソースは、設定されたスケジュールまたはオンデマンドで実行して、アセットの技術メタデータを作成または更新できます。データソースの実行中に、オプションでアセットを Amazon DataZone カタログに公開することを選択すると、すべてのドメインユーザーが検出できます。ビジネスメタデータを編集した後で、プロジェクトインベントリアセットを公開することもできます。ドメインユーザーは、公開されたアセットを検索して検出し、これらのアセットのサブスクリプションをリクエストできます。

AWS Glueデータソースを追加するには
  1. Amazon DataZone データポータル URL に移動し、シングルサインオン (SSO) またはAWS認証情報を使用してサインインします。Amazon DataZone 管理者の場合は、https://console.aws.amazon.com/datazone で Amazon DataZone コンソールに移動し、ドメインが作成されたAWS アカウントでサインインすると、[データポータルを開く] を選択できます。

  2. 上部のナビゲーションペインから [プロジェクトを選択] を選択し、データソースを追加するプロジェクトを選択します。

  3. プロジェクトの [データ] タブに移動します。

  4. 左側のナビゲーションペインで [データソース] を選択してから、[データソースを作成] を選択します。

  5. 以下のフィールドを設定します。

    • 名前 – データソース名。

    • 説明 – データソースの説明。

  6. [データソースのタイプ] で、AWS Glue を選択します。

  7. 「環境の選択」で、AWS Glueテーブルを公開する環境を指定します。

  8. データ選択で、AWS Glueデータベースを指定し、テーブル選択基準を入力します。例えば、[包含] を選択して *corporate を入力すると、データベースには corporate という単語で終わるすべてのソーステーブルが含まれます。

    ドロップダウンからAWS Glueデータベースを選択するか、データベース名を入力します。ドロップダウンには、公開データベースと環境のサブスクリプションデータベースの 2 つのデータベースが含まれます。環境によって作成されていないデータベースからアセットを取り込む場合は、ドロップダウンから選択する代わりにデータベースの名前を入力する必要があります。

    1 つのデータベース内のテーブルに対して、複数の包含ルールと除外ルールを追加できます。[別のデータベースを追加] ボタンを使用して、複数のデータベースを追加することもできます。

  9. [データ品質] では、[このデータソースのデータ品質を有効化] を選択できます。これを行うと、Amazon DataZone は既存のAWS Glue データ品質出力を Amazon DataZone カタログにインポートします。デフォルトでは、Amazon DataZone は Glue から有効期限のない最新の既存の 100 AWS件の品質レポートをインポートします。

    Amazon DataZone のデータ品質メトリクスは、データソースの完全性と正確性を理解するのに役立ちます。Amazon DataZone は、ビジネスデータカタログ検索中など、特定の時点にコンテキストを提供するために、これらのデータ品質メトリクスをAWS Glue から取得します。データユーザーは、サブスクライブしているアセットのデータ品質メトリクスが時間の経過とともにどのように変化するかを確認できます。データプロデューサーは、スケジュールに従ってAWS Glue Data Quality のスコアを取り込むことができます。Amazon DataZone ビジネスデータカタログには、データ品質 API を介してサードパーティーシステムからのデータ品質メトリクスを表示することもできます。詳細については、Amazon DataZone のデータ品質を参照してください。

  10. [次へ] を選択します。

  11. [公開設定] では、アセットをビジネスデータカタログで即座に検出可能にするかどうかを選択します。インベントリにのみ追加する場合は、後でサブスクリプション条件を選択し、ビジネスデータカタログに公開できます。

  12. [自動的なビジネス名の生成] では、ソースからインポートされるアセットのメタデータを自動的に生成するかどうかを選択します。

  13. (オプション) [メタデータフォーム] には、アセットが Amazon DataZone にインポートされたときに収集および保存されるメタデータを定義するフォームを追加します。詳細については、「Amazon DataZone でメタデータフォームを作成する」を参照してください。

  14. [実行設定] では、データソースを実行するタイミングを選択します。

    • [スケジュールに従って実行] - データソースを実行する日時を指定します。

    • [オンデマンドで実行] — データソースの実行を手動で開始できます。

  15. [次へ] を選択します。

  16. データソース設定を確認したら、[作成] をクリックします。

注記

AWS Glue データソースが作成されると、Amazon DataZone は、データソースの作成に使用される環境の IAM ロールに対する Lake Formation の「読み取り専用」アクセス許可を作成し、データソースで使用されるAWS Glue データベース内のすべてのテーブルにアクセスします。これらのグラントのステータスは、環境の詳細ページのデータソースでモニタリングできます。Amazon DataZone は、公開環境のAWS IAM ロールへのアクセスを許可するときに、次のAWSタグを Glue データベースに追加します。 DataZoneDiscoverable_${domainId}: true

Amazon DataZone の現在のリリース前に作成された環境では、プロジェクトメンバーは Amazon Athena で付与されたテーブルを表示できません。