Hive コネクタを使用してデータをクエリ可能にする Trino を使用してクラスターを作成する

Trino での Amazon EMR クラスターを起動する

Trino でクラスターを作成する際の正しい設定選択肢を以下に示します。

Hive コネクタを使用してデータをクエリ可能にする

クラスターからメタストアデータをクエリする目的で、Hive メタストアの Trino コネクタを設定できます。メタストアは、ファイルベースのコンテンツまたはデータをテーブルとして利用できる抽象化レイヤーであるので、クエリが容易です。Hive メタストアテーブルをクラスターで使用できるように、Amazon EMR でコネクタを設定しなければなりません。以下の手順は、その方法を示しています:

コンソールで AWS Glue を選択し、Amazon S3 のソースデータに基づいてテーブルを作成します。 AWS Glue データカタログのテーブルは、データのメタデータ定義です。このコンテキストでは、ソースデータからテーブルを手動で作成し、必要に応じて列を作成するのが理にかなっています。Amazon S3 の半構造化データから AWS Glue でテーブルを作成する方法の詳細については、AWS 「 Glue ユーザーガイド」の「コンソールを使用したテーブルの作成」を参照してください。
クラスター作成の一部として設定を行います。[設定] タブを選択します。設定は、クラスターのオプション仕様です。設定を入力するときは、次のサンプルのような JSON を追加します。このサンプルは、テーブルメタデータの外部 Hive メタストアとして AWS Glue データカタログを使用するように Trino に指示します。
```
{
    "classification": "trino-connector-hive",
    "properties": {
        "hive.metastore": "glue"
    }
}
```
または、クラスターの作成時に [ソフトウェア設定] セクションで設定を適用することもできます。

さらに、Apache Iceberg との接続など、他のコネクタタイプを設定することもできます。詳細については、「Amazon EMR リリースガイド」の「Trino で Iceberg クラスターを使用する」を参照してください。追加の設定はオプションです。

開始手順を続けるには、「Amazon EMR クラスターのプライマリノードに接続してクエリを実行する」を参照してください。

Trino を使用してクラスターを作成する

以下は、Trinoで使用するクラスターを作成する際の正しい構成オプションについて説明します。

重要

クラスターを作成する前に、Hive メタストアとして AWS Glue データカタログ設定を完了してください。開始するには、この設定をお勧めします。詳細については、「Hive コネクタを使用してデータをクエリ可能にする」を参照してください。

AWS コンソールで、サービスから Amazon EMR を選択します。Amazon EMR を選択することにより、既存のクラスターがある場合、[EC2 クラスター上の EMR] が一覧表示されます。
[クラスターを作成] を選択します。ここから、クラスターを構築するプロセスを開始します。
クラスターに名前を付け、[Amazon EMR リリース] を選択します。チュートリアルの最新のリリースを選択できます。
[Trino] バンドルを選択します。このバンドルには Trino アプリケーションが事前に選択されています。バンドルは、クラスターの目的が事前にわかっている場合に便利です。それ以外の場合は、Trino のチェックボックスをオンにするだけです。
[クラスターの設定] で [Uniform インスタンスグループ] を選択します。追加のインスタンスグループを削除してください。
[インスタンスタイプ] を選択します。一般的に、メモリが 16 GiB 以上のインスタンスタイプを選択することをお勧めします。また、[クラスターのスケーリングとプロビジョニング] では、[クラスターサイズを手動で設定] を選択します。
この時点で、Hive メタストア設定を AWS Glue を指すように設定します。詳細については、「Hive コネクタを使用してデータをクエリ可能にする」セクションを参照してください。クラスターを構築する前に、これを完了してください。
[クラスターを作成] を選択します。これには数分かかることがあります。

ここでのステップでは、すべての設定ステップについて詳しく説明しているわけではありません。クラスターの設定の詳細については、「Plan, configure and launch Amazon EMR clusters」を参照してください。

注記

同じクラスターで使用する Presto と Trino の両方を選択しないでください。これらを一緒に実行することはサポートされていません。Trino を実行する場合は、Spark など、クラスター上で他のアプリケーションを実行しないことをお勧めします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Trino で Amazon EMR を使用するための前提条件ステップを完了する

プライマリノードに接続してクエリを実行する