Amazon Athena Redshift コネクタ
Amazon Athena Redshift コネクタは、Amazon Athena が Amazon Redshift データベースと Amazon Redshift Serverless データベース (Redshift Serverless ビューを含む) にアクセスすることを可能にします。どちらのサービスにも、このページで説明されている JDBC 接続文字列設定を使用して接続できます。
このコネクタは、Glue データカタログにフェデレーティッドカタログとして登録できます。Lake Formation で定義されたデータアクセスコントロールを、カタログ、データベース、テーブル、列、行、タグレベルでサポートします。このコネクタは、Glue 接続を使用して Glue の設定プロパティを一元管理しています。
前提条件
Athena コンソールまたは AWS Serverless Application Repository を使用して AWS アカウント にコネクタをデプロイします。詳細については「データソース接続を作成する」または「AWS Serverless Application Repository を使用してデータソースコネクタをデプロイする」を参照してください。
制限
-
DDL の書き込みオペレーションはサポートされていません。
-
マルチプレクサの設定では、スピルバケットとプレフィックスが、すべてのデータベースインスタンスで共有されます。
-
関連性のある Lambda 上限値。詳細については、AWS Lambda デベロッパーガイドの Lambda のクォータを参照してください。
-
Redshift は外部パーティションをサポートしていないため、クエリで指定されたすべてのデータが毎回取得されます。
-
Redshift と同様に、Athena は Redshift
CHARタイプの末尾のスペースを、長さや比較の目的で意味的に重要ではないものとして扱います。これはCHARにのみ適用され、VARCHARタイプには適用されないことに留意してください。Athena は、CHARタイプの末尾のスペースを無視しますが、VARCHARタイプでは重要なものとして扱います。
用語
Redshift コネクタに関連する用語を次に示します。
-
データベースインスタンス – オンプレミス、Amazon EC2、または Amazon RDS にデプロイされたデータベースの任意のインスタンス。
-
ハンドラー – データベースインスタンスにアクセスする Lambda ハンドラー。ハンドラーには、メタデータ用とデータレコード用があります。
-
メタデータハンドラー – データベースインスタンスからメタデータを取得する Lambda ハンドラー。
-
レコードハンドラー – データベースインスタンスからデータレコードを取得する Lambda ハンドラー。
-
複合ハンドラー — データベースインスタンスからメタデータとデータレコードの両方を取得する Lambda ハンドラー。
-
プロパティまたはパラメータ – ハンドラーがデータベース情報を抽出するために使用するデータベースプロパティ。これらのプロパティは Lambda の環境変数で設定します。
-
接続文字列 – データベースインスタンスへの接続を確立するために使用されるテキスト文字列。
-
カタログ – Athena に登録された AWS Glue ではないカタログ。これは、
connection_stringプロパティに必須のプレフィックスです。 -
マルチプレックスハンドラー – 複数のデータベース接続を受け入れて使用することが可能な Lambda ハンドラー。
パラメータ
このセクションのパラメータを使用して Redshift コネクタを設定します。
Glue 接続オブジェクトを使用して Redshift コネクタを設定することをお勧めします。そのためには、Amazon Redshift コネクタ Lambda の glue_connection 環境変数を、使用する Glue 接続の名前に設定します。
Glue 接続プロパティ
次のコマンドを使用して、Glue 接続オブジェクトのスキーマを取得します。このスキーマには、接続を制御するために使用できるすべてのパラメータが含まれています。
aws glue describe-connection-type --connection-type REDSHIFT
Lambda 環境プロパティ
glue_connection – フェデレーションコネクタに関連付けられた Glue 接続の名前を指定します。
注記
-
Glue 接続を使用するすべてのコネクタは、認証情報を保存するために AWS Secrets Manager を使用する必要があります。
-
Glue 接続を使用して作成された Redshift コネクタは、マルチプレックスハンドラーの使用をサポートしていません。
-
Glue 接続を使用して作成された Redshift コネクタは、
ConnectionSchemaVersion2 のみをサポートします。
注記
2024 年 12 月 3 日以降に作成された Athena データソースコネクタは、AWS Glue 接続を使用します。
以下に示すパラメータ名と定義は、関連付けられた Glue 接続なしで作成された Athena データソースコネクタ用です。以下のパラメータは、Athena データソースコネクタの以前のバージョンを手動でデプロイする場合、または glue_connection 環境プロパティが指定されていない場合にのみ使用します。
Lambda 環境プロパティ
-
spill_bucket – Lambda 関数の上限を超えたデータに対して、Amazon S3 バケットを指定します。
-
spill_prefix – (オプション) 指定された
athena-federation-spillというspill_bucketの、デフォルトのサブフォルダに設定します。このロケーションで、Amazon S3 のストレージライフサイクルを設定し、あらかじめ決められた日数または時間数以上経過したスピルを削除することをお勧めします。 -
spill_put_request_headers – (オプション) スピリングに使用されるAmazon S3 の
putObjectリクエスト (例:{"x-amz-server-side-encryption" : "AES256"}) に関する、 JSON でエンコードされたリクエストヘッダーと値のマッピング。利用可能な他のヘッダーについては、「Amazon Simple Storage Service API リファレンス」の「PutObject」を参照してください。 -
kms_key_id – (オプション) デフォルトでは、Amazon S3 に送信されるすべてのデータは、AES-GCM で認証された暗号化モードとランダムに生成されたキーを使用して暗号化されます。KMS が生成したより強力な暗号化キー (たとえば
a7e63k4b-8loc-40db-a2a1-4d0en2cd8331) を Lambda 関数に使用させる場合は、KMS キー ID を指定します。 -
disable_spill_encryption – (オプション)
Trueに設定されている場合、スピルに対する暗号化を無効にします。デフォルト値はFalseです。この場合、S3 にスピルされたデータは、AES-GCM を使用して (ランダムに生成されたキー、または KMS により生成したキーにより) 暗号化されます。スピル暗号化を無効にすると、特にスピルされる先でサーバー側の暗号化を使用している場合に、パフォーマンスが向上します。 -
disable_glue – (オプション) これが存在し、true に設定されている場合、コネクタは AWS Glue からの補足メタデータ取得は試みません。
-
glue_catalog – (オプション) クロスアカウントの AWS Glue カタログを指定するために、このオプションを使用します。デフォルトでは、コネクタは自身の AWS Glue アカウントからメタデータを取得しようとします。
接続文字列
次の形式の JDBC 接続文字列を使用して、データベースインスタンスに接続します。
redshift://${jdbc_connection_string}
マルチプレックスハンドラーの使用
マルチプレクサーを使用すると、単一の Lambda 関数から複数のデータベースインスタンスに接続できます。各リクエストはカタログ名によりルーティングされます。Lambda では以下のクラスを使用します。
| Handler | Class |
|---|---|
| 複合ハンドラー | RedshiftMuxCompositeHandler |
| メタデータハンドラー | RedshiftMuxMetadataHandler |
| レコードハンドラー | RedshiftMuxRecordHandler |
マルチプレックスハンドラーのパラメータ
| パラメータ | 説明 |
|---|---|
$ |
必須。データベースインスタンスの接続文字列。環境変数には、Athena で使用されているカタログの名前をプレフィックスします。例えば、Athena に登録されたカタログが myredshiftcatalog の場合、環境変数の名前は myredshiftcatalog_connection_string になります。 |
default |
必須。デフォルトの接続文字列。この文字列は、カタログが lambda:${AWS_LAMBDA_FUNCTION_NAME} の場合に使用されます。 |
redshift1 (デフォルト) と redshift2 の 2 つのデータベースインスタンスをサポートする Redshift MUX Lambda 関数用のプロパティを次に示します。
| プロパティ | 値 |
|---|---|
default |
redshift://jdbc:redshift://redshift1.host:5439/dev?user=sample2&password=sample2 |
redshift_catalog1_connection_string |
redshift://jdbc:redshift://redshift1.host:3306/default?${Test/RDS/Redshift1} |
redshift_catalog2_connection_string |
redshift://jdbc:redshift://redshift2.host:3333/default?user=sample2&password=sample2 |
認証情報の提供
JDBC 接続文字列の中でデータベースのユーザー名とパスワードを指定するには、接続文字列のプロパティ、もしくは AWS Secrets Manager を使用します。
-
接続文字列 – ユーザー名とパスワードを、JDBC 接続文字列のプロパティとして指定できます。
重要
セキュリティのベストプラクティスとして、環境変数や接続文字列にハードコードされた認証情報を使用しないでください。ハードコードされたシークレットを AWS Secrets Manager に移動する方法については、「AWS Secrets Manager ユーザーガイド」の「ハードコードされたシークレットを AWS Secrets Manager に移動する」を参照してください。
-
AWS Secrets Manager – Athena フェデレーティッドクエリ機能を AWS Secrets Manager で使用するには、Secrets Manager に接続するためのインターネットアクセス
または VPC エンドポイントが、Lambda 関数に接続されている VPC に必要です。 JDBC 接続文字列には、AWS Secrets Manager のシークレットの名前を含めることができます。コネクタは、このシークレット名を Secrets Manager の
usernameおよびpasswordの値に置き換えます。Amazon RDS データベースインスタンスには、このサポートが緊密に統合されています。Amazon RDS を使用している場合は、AWS Secrets Manager と認証情報ローテーションの使用を強くお勧めします。データベースで Amazon RDS を使用していない場合は、認証情報を次の形式で JSON として保存します。
{"username": "${username}", "password": "${password}"}
シークレット名を含む接続文字列の例
次の文字列はシークレット名 ${Test/RDS/ Redshift1} を含んでいます。
redshift://jdbc:redshift://redshift1.host:3306/default?...&${Test/RDS/Redshift1}&...
次の例のように、コネクタはシークレット名を使用し、シークレットを取得してユーザー名とパスワードを提供します。
redshift://jdbc:redshift://redshift1.host:3306/default?...&user=sample2&password=sample2&...
現在、Redshift コネクタは user と password の JDBC プロパティを認識します。
サポートされるデータ型
次の表に、JDBC と Apache Arrow に対応するデータ型を示します。
| JDBC | Arrow |
|---|---|
| ブール値 | Bit |
| 整数 | Tiny |
| ショート | Smallint |
| 整数 | Int |
| Long | Bigint |
| フロート | Float4 |
| ダブル | Float8 |
| 日付 | DateDay |
| Timestamp | DateMilli |
| String | Varchar |
| バイト | Varbinary |
| BigDecimal | 10 進数 |
| 配列 | リスト |
パーティションと分割
Redshift は外部パーティションをサポートしていません。パフォーマンス関連の問題については、「パフォーマンス」を参照してください。
パフォーマンス
Athena Redshift コネクタは述語のプッシュダウンを実行して、クエリによってスキャンされるデータを減少させます。スキャンされるデータ量を削減し、クエリ実行のランタイムを短縮するために、LIMIT 句、ORDER BY 句、単純な述語、および複雑な式はコネクタにプッシュダウンされます。ただし、列のサブセットを選択すると、クエリのランタイムが長くなる場合があります。Amazon Redshift は、複数のクエリを同時に実行すると、特にクエリの実行速度が低下しやすくなります。
LIMIT 句
LIMIT N ステートメントにより、クエリによってスキャンされるデータが削減されます。LIMIT N プッシュダウンを使用すると、コネクタは N 行のみを Athena に返します。
上位 N 件のクエリ
上位 N 件のクエリは、結果セットの順序と返される行数に対する制限を指定します。このタイプのクエリを使用して、データセットの上位 N 個の最大値または上位 N 個の最小値を決定できます。上位 N 件のプッシュダウンを使用すると、コネクタは N 件の順序付けられた行のみを Athena に返します。
述語
述語は、ブール値に照らして評価し、複数の条件に基づいて行をフィルタリングする SQL クエリの WHERE 句内の式です。Athena Redshift コネクタは、これらの式を組み合わせて Redshift に直接プッシュすることで、機能を強化し、スキャンされるデータ量を削減できます。
次の Athena Redshift コネクタ演算子は、述語のプッシュダウンをサポートしています。
-
ブーリアン: AND、OR、NOT
-
等値: EQUAL、NOT_EQUAL、LESS_THAN、LESS_THAN_OR_EQUAL、GREATER_THAN、GREATER_THAN_OR_EQUAL、IS_DISTINCT_FROM、NULL_IF、IS_NULL
-
Arithmetic: ADD、SUBTRACT、MULTIPLY、DIVIDE、MODULUS、NEGATE
-
その他: LIKE_PATTERN、IN
組み合わせたプッシュダウンの例
クエリ機能を強化するには、次の例のようにプッシュダウンタイプを組み合わせます。
SELECT * FROM my_table WHERE col_a > 10 AND ((col_a + col_b) > (col_c % col_d)) AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') ORDER BY col_a DESC LIMIT 10;
Amazon Redshift などのフェデレーテッドクエリのパフォーマンスを向上させるために述語プッシュダウンを使用する方法の記事については、AWS Big Data Blog の「Improve federated queries with predicate pushdown in Amazon Athena
パススルークエリ
Redshift コネクタは、パススルークエリをサポートします。パススルークエリは、テーブル関数を使用して、実行のためにクエリ全体をデータソースにプッシュダウンします。
Redshift でパススルークエリを使用するには、以下の構文を使用できます。
SELECT * FROM TABLE( system.query( query => 'query string' ))
以下のクエリ例は、Redshift 内のデータソースにクエリをプッシュダウンします。クエリは customer テーブル内のすべての列を選択し、結果を 10 個に制限します。
SELECT * FROM TABLE( system.query( query => 'SELECT * FROM customer LIMIT 10' ))
その他のリソース
最新の JDBC ドライバーのバージョン情報については、GitHub.com の Redshift コネクタ用の pom.xml
このコネクタに関するその他の情報については、GitHub.com で対応するサイト