Hive JDBC ドライバーの使用 - Amazon EMR

Hive JDBC ドライバーの使用

Microsoft Excel、MicroStrategy、QlikView、Tableau などの人気のビジネスインテリジェンスツールを Amazon EMR で使用して、データを調査しビジュアル化することができます。この種のツールの多くは Java Database Connectivity (JDBC) ドライバーまたは Open Database Connectivity (ODBC) ドライバーを必要とします。Amazon EMR は、Spark、Hive、または Presto クラスターへの JDBC 接続と ODBC 接続の両方をサポートしています。

以下の例では、SQL Workbench/J を SQL クライアントとして使用して、Amazon EMR の Hive クラスターに接続します。その他のドライバーについては、「Amazon EMR でのビジネスインテリジェンスツールの使用」を参照してください。

SQL Workbench/J をインストールして使用する前に、ドライバーパッケージをダウンロードしてドライバーをインストールします。パッケージに含まれているドライバーは、Amazon EMR リリースバージョン 4.0 以降で利用できる Hive バージョンをサポートしています。詳細なリリースノートおよびドキュメントについては、パッケージに含まれている PDF ドキュメントを参照してください。

SQL Workbench をインストールして設定するには
  1. オペレーティングシステム用の SQL Workbench/J クライアントを からダウンロードしますhttp://www.sql-workbench.net/downloads.html

  2. SQL Workbench/J をインストールします。詳細については、SQL Workbench/J ユーザーズマニュアルの「Installing and starting SQL Workbench/J」を参照してください。

  3. Linux, Unix, Mac OS X ユーザー: ターミナルセッションで、以下のコマンドを使用して、クラスターのマスターノードへの SSH トンネルを作成します。master-public-dns-name をマスターノードのパブリック DNS 名に置き換え、path-to-key-file を Amazon EC2 プライベートキー (.pem) ファイルの場所とファイル名に置き換えます。

    ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10000:localhost:10000 hadoop@master-public-dns-name

    Windows ユーザー: PuTTY セッションで、ソースポート10000送信先master-public-dns-name:10000 としてクラスターのマスターノードへの SSH トンネルを作成します (ローカルポートフォワーディングを使用)。master-public-dns-name をマスターノードのパブリック DNS 名に置き換えます。

  4. SQL Workbench に JDBC ドライバを追加します。

    1. [Select Connection Profile (接続プロファイルの選択)] ダイアログボックスで [Manage Drivers (ドライバーの管理)] をクリックします。

    2. [Create a new entry (新しいエントリの作成)] (空白ページ) アイコンをクリックします。

    3. 名前フィールドに、Hive JDBC と入力します。

    4. [Library] で [Select the JAR file(s)] アイコンをクリックします。

    5. 抽出したドライバーがある場所に移動します。ダウンロードした JDBC ドライバーパッケージバージョンに含まれているドライバーを選択し、[開く] をクリックします。

      例えば、JDBC ドライバーパッケージには以下の JAR が含まれている場合があります。

      hive_metastore.jar hive_service.jar HiveJDBC41.jar libfb303-0.9.0.jar libthrift-0.9.0.jar log4j-1.2.14.jar ql.jar slf4j-api-1.5.11.jar slf4j-log4j12-1.5.11.jar TCLIServiceClient.jar zookeeper-3.4.6.jar
    6. [Please select one driver] (ドライバーを 1 つ選択してください) ダイアログボックスで、com.amazon.hive.jdbc41.HS2Driver を選択して、[OK] を選択します。

  5. [Manage Drivers] (ドライバーの管理) ダイアログボックスに戻ったら、[Classname] (クラス名) フィールドに値が設定されていることを確認し、[OK] を選択します。

  6. [Select Connection Profile] (接続プロファイルの選択) ダイアログボックスに戻ったら、[Driver] (ドライバー) フィールドが [Hive JDBC] に設定されていることを確認し、[URL] フィールドに JDBC 接続文字列 jdbc:hive2://localhost:10000/default を入力します。

  7. [OK] を選択すると接続します。接続が完了すると、接続の詳細が SQL Workbench/J のウィンドウの上部に表示されます。

Hive と JDBC インターフェイスの使用方法の詳細については、Apache Hive のドキュメントの「HiveClient」および「HiveJDBCInterface」を参照してください。