AWS Glue Data Catalog - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS Glue Data Catalog

「AWS Glue Data Catalog」 は、さまざまなデータソースのすべてのデータ資産を一元管理するメタデータリポジトリです。データフォーマット、スキーマ、ソースに関する情報を保存してクエリするための統合インターフェースを提供します。AWS Glue ETLジョブが実行されると、このカタログを使用してデータに関する情報を理解し、正しく変換されるようにします。

AWS Glue Data Catalog は次のコンポーネントで構成されています。

  • データベースとテーブル

  • クローラーおよび分類子

  • Connections

  • スキーマレジストリ

AWS Glue データベースとテーブル

AWS Glue Data Catalogデータベースとテーブルで構成され、メタデータを保存および管理するための論理構造を提供しています。この構造により、「AWS Identity and Access Management (IAM) ポリシー」 を使用して、テーブルレベルまたはデータベースレベルでの正確なデータアクセス制御が可能になります。

AWS Glue データベースには多数のテーブルを含めることができ、各テーブルは 1 つのデータベースに関連付ける必要があります。これらのテーブルには実際のデータへの参照が含まれており、AWS Glue サポートされているさまざまなデータソースのいずれかに保存できます。AWS Glue テーブルには、列名、データ型、パーティションキーなどの重要なメタデータも格納されます。

AWS Glue にテーブルを作成する方法はいくつかあります。

  • AWS Glue クローラー

  • AWS Glue ETL ジョブ

  • AWS Glue コンソール

  • 「AWS Glue API」 での CreateTable 操作

  • AWS CloudFormation テンプレート

  • AWS Cloud Development Kit (AWS CDK)

  • 移行された Apache Hive メタストア

AWS Glue クローラおよび分類子

AWS Glue クローラーはデータストアからメタデータを自動的に検出して抽出し、それに応じて AWS Glue Data Catalog データを更新します。クローラーがデータストアに接続して、データのスキーマを推測します。次に、検出したスキーマ情報を使用してデータカタログ内のテーブルを作成または更新します。クローラーは、ファイルベース、およびテーブルベースのデータストアの両方をクロールできます。サポートされているデータストアの詳細については、「クロール可能なデータストア」 を参照してください。

クローラーは「分類器」 を使用してデータの形式を正確に認識し、処理方法を決定します。デフォルトでは、クローラーは AWS Glue が提供する一般的な「組み込み分類子 」のセットを使用しますが、特定のユースケースを処理するカスタム分類子を作成することもできます。

AWS Glue 接続

AWS Glue 「接続」 を使用して、AWS Glue がさまざまなデータソースに接続できるようにする接続パラメータを定義できます。接続を追加すると、これらのソースへの接続に必要な構成が一元化され、簡素化されます。

「接続を定義する」 ときは、接続タイプ、接続エンドポイント、および必要な認証情報を指定します。接続を定義すると、複数の AWS Glue ジョブやクローラーで再利用できます。AWS Glue による接続を使用することで、ログイン認証情報や仮想プライベートクラウド (VPC) IDなど、同じ接続情報を繰り返し入力する必要性を減らすことができます。

AWS Glue「 スキーマレジストリ」

「AWS Glue スキーマレジストリ」 は、データストリームスキーマを一元的に管理および実施するための場所です。これにより、データプロデューサーと非シリアル化用の異なるシステムで、シリアル化と非シリアル化用のスキーマを共有できます。スキーマを共有することで、これらのシステムは効果的にコミュニケーションをとり、変換中のエラーを回避することができます。

スキーマ・レジストリは、下流のデータ・コンシューマーが上流で行われた変更を確実に処理できるようにします。スキーマの進化をサポートしているため、以前のバージョンのスキーマとの互換性を維持したまま、スキーマを時間の経過とともに変更することができます。

スキーマレジストリは、Amazon Kinesis Data Streams、Firehose、Apache Kafka 用 Amazon マネージドストリーミングなど、多くの AWS サービスと統合されています。使用例と統合については、「AWS Glue スキーマレジストリとの統合」を参照のこと。