翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Glue Data Catalog
「AWS Glue Data Catalog」 は、さまざまなデータソースのすべてのデータ資産を一元管理するメタデータリポジトリです。データフォーマット、スキーマ、ソースに関する情報を保存してクエリするための統合インターフェースを提供します。AWS Glue ETLジョブが実行されると、このカタログを使用してデータに関する情報を理解し、正しく変換されるようにします。
AWS Glue Data Catalog は次のコンポーネントで構成されています。
-
データベースとテーブル
-
クローラーおよび分類子
-
Connections
-
スキーマレジストリ
AWS Glue データベースとテーブル
AWS Glue Data Catalog はデータベースとテーブルで構成され、メタデータを保存および管理するための論理構造を提供しています。この構造により、「AWS Identity and Access Management (IAM) ポリシー」 を使用して、テーブルレベルまたはデータベースレベルでの正確なデータアクセス制御が可能になります。
AWS Glue データベースには多数のテーブルを含めることができ、各テーブルは 1 つのデータベースに関連付ける必要があります。これらのテーブルには実際のデータへの参照が含まれており、AWS Glue サポートされているさまざまなデータソースのいずれかに保存できます。AWS Glue テーブルには、列名、データ型、パーティションキーなどの重要なメタデータも格納されます。
AWS Glue にテーブルを作成する方法はいくつかあります。
-
AWS Glue クローラー
-
AWS Glue ETL ジョブ
-
AWS Glue コンソール
-
「AWS Glue API」 での
CreateTable操作 -
AWS CloudFormation テンプレート
-
AWS Cloud Development Kit (AWS CDK)
-
移行された Apache Hive メタストア
AWS Glue クローラおよび分類子
AWS Glue クローラーはデータストアからメタデータを自動的に検出して抽出し、それに応じて AWS Glue Data Catalog データを更新します。クローラーがデータストアに接続して、データのスキーマを推測します。次に、検出したスキーマ情報を使用してデータカタログ内のテーブルを作成または更新します。クローラーは、ファイルベース、およびテーブルベースのデータストアの両方をクロールできます。サポートされているデータストアの詳細については、「クロール可能なデータストア」 を参照してください。
クローラーは「分類器」 を使用してデータの形式を正確に認識し、処理方法を決定します。デフォルトでは、クローラーは AWS Glue が提供する一般的な「組み込み分類子 」のセットを使用しますが、特定のユースケースを処理するカスタム分類子を作成することもできます。
AWS Glue 接続
AWS Glue 「接続」 を使用して、AWS Glue がさまざまなデータソースに接続できるようにする接続パラメータを定義できます。接続を追加すると、これらのソースへの接続に必要な構成が一元化され、簡素化されます。
「接続を定義する」 ときは、接続タイプ、接続エンドポイント、および必要な認証情報を指定します。接続を定義すると、複数の AWS Glue ジョブやクローラーで再利用できます。AWS Glue による接続を使用することで、ログイン認証情報や仮想プライベートクラウド (VPC) IDなど、同じ接続情報を繰り返し入力する必要性を減らすことができます。
AWS Glue「 スキーマレジストリ」
「AWS Glue スキーマレジストリ」 は、データストリームスキーマを一元的に管理および実施するための場所です。これにより、データプロデューサーと非シリアル化用の異なるシステムで、シリアル化と非シリアル化用のスキーマを共有できます。スキーマを共有することで、これらのシステムは効果的にコミュニケーションをとり、変換中のエラーを回避することができます。
スキーマ・レジストリは、下流のデータ・コンシューマーが上流で行われた変更を確実に処理できるようにします。スキーマの進化をサポートしているため、以前のバージョンのスキーマとの互換性を維持したまま、スキーマを時間の経過とともに変更することができます。
スキーマレジストリは、Amazon Kinesis Data Streams、Firehose、Apache Kafka 用 Amazon マネージドストリーミングなど、多くの AWS サービスと統合されています。使用例と統合については、「AWS Glue スキーマレジストリとの統合」を参照のこと。