前提条件制限事項用語パラメータサポートされるデータ型パーティションと分割パフォーマンスパススルークエリその他のリソース

Amazon Athena Redshift コネクタ

Amazon Athena Redshift コネクタは、Amazon Athena が Amazon Redshift データベースと Amazon Redshift Serverless データベース (Redshift Serverless ビューを含む) にアクセスすることを可能にします。どちらのサービスにも、このページで説明されている JDBC 接続文字列設定を使用して接続できます。

このコネクタは、Glue データカタログにフェデレーティッドカタログとして登録できます。Lake Formation で定義されたデータアクセスコントロールを、カタログ、データベース、テーブル、列、行、タグレベルでサポートします。このコネクタは、Glue 接続を使用して Glue の設定プロパティを一元管理しています。

前提条件

Athena コンソールまたは AWS Serverless Application Repository を使用して AWS アカウントにコネクタをデプロイします。詳細については「データソース接続を作成する」または「AWS Serverless Application Repository を使用してデータソースコネクタをデプロイする」を参照してください。

制限事項

DDL の書き込みオペレーションはサポートされていません。
マルチプレクサの設定では、スピルバケットとプレフィックスが、すべてのデータベースインスタンスで共有されます。
関連性のある Lambda 上限値。詳細については、「AWS Lambda デベロッパーガイド」の「Lambda のクォータ」を参照してください。
Redshift は外部パーティションをサポートしていないため、クエリで指定されたすべてのデータが毎回取得されます。
Redshift と同様に、Athena は Redshift CHAR タイプの末尾のスペースを、長さや比較の目的で意味的に重要ではないものとして扱います。これは CHAR にのみ適用され、VARCHAR タイプには適用されないことに留意してください。Athena は、CHAR タイプの末尾のスペースを無視しますが、VARCHAR タイプでは重要なものとして扱います。

用語

Redshift コネクタに関連する用語を次に示します。

データベースインスタンス – オンプレミス、Amazon EC2、または Amazon RDS にデプロイされたデータベースの任意のインスタンス。
ハンドラー – データベースインスタンスにアクセスする Lambda ハンドラー。ハンドラーには、メタデータ用とデータレコード用があります。
メタデータハンドラー – データベースインスタンスからメタデータを取得する Lambda ハンドラー。
レコードハンドラー – データベースインスタンスからデータレコードを取得する Lambda ハンドラー。
複合ハンドラー — データベースインスタンスからメタデータとデータレコードの両方を取得する Lambda ハンドラー。
プロパティまたはパラメータ – ハンドラーがデータベース情報を抽出するために使用するデータベースプロパティ。これらのプロパティは Lambda の環境変数で設定します。
接続文字列 – データベースインスタンスへの接続を確立するために使用されるテキスト文字列。
カタログ – Athena に登録された AWS Glue ではないカタログ。これは、connection_string プロパティに必須のプレフィックスです。
マルチプレックスハンドラー – 複数のデータベース接続を受け入れて使用することが可能な Lambda ハンドラー。

パラメータ

このセクションのパラメータを使用して Redshift コネクタを設定します。

Glue 接続オブジェクトを使用して Redshift コネクタを設定することをお勧めします。そのためには、Amazon Redshift コネクタ Lambda の glue_connection 環境変数を、使用する Glue 接続の名前に設定します。

Glue 接続プロパティ

次のコマンドを使用して、Glue 接続オブジェクトのスキーマを取得します。このスキーマには、接続を制御するために使用できるすべてのパラメータが含まれています。


aws glue describe-connection-type --connection-type REDSHIFT

Lambda 環境プロパティ

次の Lambda 環境プロパティは、お客様のアカウントの Lambda 関数でコネクタを使用する場合にのみ適用されます。

glue_connection – フェデレーションコネクタに関連付けられた Glue 接続の名前を指定します。

注記

AWS Glue Data Catalog フェデレーション接続を使用するすべてのコネクタは、認証情報を保存するために AWS Secrets Manager を使用する必要があります。
AWS Glue Data Catalog フェデレーション接続を使用して作成された Redshift コネクタは、マルチプレックスハンドラーの使用をサポートしていません。
AWS Glue Data Catalog フェデレーション接続を使用して作成された Redshift コネクタは、ConnectionSchemaVersion 2 のみをサポートします。

注記

2024 年 12 月 3 日以降に作成された Athena データソースコネクタは、AWS Glue 接続を使用します。

以下に示すパラメータ名と定義は、関連付けられた Glue 接続なしで作成された Athena データソースコネクタ用です。次のパラメータは、Athena データソースコネクタの以前のバージョンを手動でデプロイする場合、または glue_connection 環境プロパティが指定されていない場合にのみ使用します。

Lambda 環境プロパティ

spill_bucket – Lambda 関数の上限を超えたデータに対して、Amazon S3 バケットを指定します。
spill_prefix – (オプション) 指定された athena-federation-spill という spill_bucket の、デフォルトのサブフォルダに設定します。このロケーションで、Amazon S3 のストレージライフサイクルを設定し、あらかじめ決められた日数または時間数以上経過したスピルを削除することをお勧めします。
spill_put_request_headers – (オプション) スピリングに使用されるAmazon S3 の putObject リクエスト (例:{"x-amz-server-side-encryption" : "AES256"}) に関する、 JSON でエンコードされたリクエストヘッダーと値のマッピング。利用可能な他のヘッダーについては、「Amazon Simple Storage Service API リファレンス」の「PutObject」を参照してください。
kms_key_id – (オプション) デフォルトでは、Amazon S3 に送信されるすべてのデータは、AES-GCM で認証された暗号化モードとランダムに生成されたキーを使用して暗号化されます。KMS が生成したより強力な暗号化キー (例えば a7e63k4b-8loc-40db-a2a1-4d0en2cd8331) を Lambda 関数に使用させる場合は、KMS キー ID を指定します。
disable_spill_encryption – (オプション) True に設定されている場合、スピルに対する暗号化を無効にします。デフォルト値は False です。この場合、S3 にスピルされたデータは、AES-GCM を使用して (ランダムに生成されたキー、または KMS により生成したキーにより) 暗号化されます。スピル暗号化を無効にすると、特にスピルされる先でサーバー側の暗号化を使用している場合に、パフォーマンスが向上します。
disable_glue – (オプション) これが存在し、true に設定されている場合、コネクタは AWS Glue からの補足メタデータ取得は試みません。
glue_catalog – (オプション) クロスアカウントの AWS Glue カタログを指定するために、このオプションを使用します。デフォルトでは、コネクタは自身の AWS Glue アカウントからメタデータを取得しようとします。

接続文字列

次の形式の JDBC 接続文字列を使用して、データベースインスタンスに接続します。


redshift://${jdbc_connection_string}

マルチプレックスハンドラーの使用

マルチプレクサーを使用すると、単一の Lambda 関数から複数のデータベースインスタンスに接続できます。各リクエストはカタログ名によりルーティングされます。Lambda では次のクラスを使用します。

Handler	Class
複合ハンドラー	`RedshiftMuxCompositeHandler`
メタデータハンドラー	`RedshiftMuxMetadataHandler`
レコードハンドラー	`RedshiftMuxRecordHandler`

マルチプレックスハンドラーのパラメータ

パラメータ	説明
`$catalog_connection_string`	必須。データベースインスタンスの接続文字列。環境変数には、Athena で使用されているカタログの名前をプレフィックスします。例えば、Athena に登録されたカタログが `myredshiftcatalog` の場合、環境変数の名前は `myredshiftcatalog_connection_string` になります。
`default`	必須。デフォルトの接続文字列。この文字列は、カタログが `lambda:${AWS_LAMBDA_FUNCTION_NAME}` の場合に使用されます。

redshift1 (デフォルト) と redshift2 の 2 つのデータベースインスタンスをサポートする Redshift MUX Lambda 関数用のプロパティを次に示します。

プロパティ	値
`default`	`redshift://jdbc:redshift://redshift1.host:5439/dev?user=sample2&password=sample2`
`redshift_catalog1_connection_string`	`redshift://jdbc:redshift://redshift1.host:3306/default?${Test/RDS/Redshift1}`
`redshift_catalog2_connection_string`	`redshift://jdbc:redshift://redshift2.host:3333/default?user=sample2&password=sample2`

認証情報の提供

JDBC 接続文字列の中でデータベースのユーザー名とパスワードを指定するには、接続文字列のプロパティ、もしくは AWS Secrets Manager を使用します。

接続文字列 – ユーザー名とパスワードを、JDBC 接続文字列のプロパティとして指定できます。

重要
セキュリティのベストプラクティスとして、環境変数や接続文字列にハードコードされた認証情報を使用しないでください。ハードコードされたシークレットを AWS Secrets Manager に移動する方法については、「AWS Secrets Manager ユーザーガイド」の「ハードコードされたシークレットを AWS Secrets Manager に移動する」を参照してください。
AWS Secrets Manager – Athena フェデレーティッドクエリ機能を AWS Secrets Manager で使用するには、Secrets Manager に接続するためのインターネットアクセスまたは VPC エンドポイントが、Lambda 関数に接続されている VPC に必要です。

JDBC 接続文字列には、AWS Secrets Manager のシークレットの名前を含めることができます。コネクタは、このシークレット名を Secrets Manager の username および password の値に置き換えます。

Amazon RDS データベースインスタンスには、このサポートが緊密に統合されています。Amazon RDS を使用している場合は、AWS Secrets Manager と認証情報ローテーションの使用を強くお勧めします。データベースで Amazon RDS を使用していない場合は、認証情報を次の形式で JSON として保存します。
```
{"username": "${username}", "password": "${password}"}
```

シークレット名を含む接続文字列の例

次の文字列はシークレット名 ${Test/RDS/ Redshift1} を含んでいます。


redshift://jdbc:redshift://redshift1.host:3306/default?...&${Test/RDS/Redshift1}&...

次の例のように、コネクタはシークレット名を使用し、シークレットを取得してユーザー名とパスワードを提供します。


redshift://jdbc:redshift://redshift1.host:3306/default?...&user=sample2&password=sample2&...

現在、Redshift コネクタは user と password の JDBC プロパティを認識します。

サポートされるデータ型

次の表に、JDBC と Apache Arrow に対応するデータ型を示します。

JDBC	Arrow
ブール値	Bit
整数	Tiny
ショート	Smallint
整数	Int
Long	Bigint
float	Float4
ダブル	Float8
日付	DateDay
タイムスタンプ	DateMilli
String	Varchar
バイト	Varbinary
BigDecimal	10 進数
配列	リスト

パーティションと分割

Redshift は外部パーティションをサポートしていません。パフォーマンス関連の問題については、「パフォーマンス」を参照してください。

パフォーマンス

Athena Redshift コネクタは述語のプッシュダウンを実行して、クエリによってスキャンされるデータを減少させます。スキャンされるデータ量を削減し、クエリ実行のランタイムを短縮するために、LIMIT 句、ORDER BY 句、単純な述語、および複雑な式はコネクタにプッシュダウンされます。ただし、列のサブセットを選択すると、クエリのランタイムが長くなる場合があります。Amazon Redshift は、複数のクエリを同時に実行すると、特にクエリの実行速度が低下しやすくなります。

LIMIT 句

LIMIT N ステートメントにより、クエリによってスキャンされるデータが削減されます。LIMIT N プッシュダウンを使用すると、コネクタは N 行のみを Athena に返します。

上位 N 件のクエリ

上位 N 件のクエリは、結果セットの順序と返される行数に対する制限を指定します。このタイプのクエリを使用して、データセットの上位 N 個の最大値または上位 N 個の最小値を決定できます。上位 N 件のプッシュダウンを使用すると、コネクタは N 件の順序付けられた行のみを Athena に返します。

述語

述語は、ブール値に照らして評価し、複数の条件に基づいて行をフィルタリングする SQL クエリの WHERE 句内の式です。Athena Redshift コネクタは、これらの式を組み合わせて Redshift に直接プッシュすることで、機能を強化し、スキャンされるデータ量を削減できます。

次の Athena Redshift コネクタ演算子は、述語のプッシュダウンをサポートしています。

ブーリアン: AND、OR、NOT
等値: EQUAL、NOT_EQUAL、LESS_THAN、LESS_THAN_OR_EQUAL、GREATER_THAN、GREATER_THAN_OR_EQUAL、IS_DISTINCT_FROM、NULL_IF、IS_NULL
Arithmetic: ADD、SUBTRACT、MULTIPLY、DIVIDE、MODULUS、NEGATE
その他: LIKE_PATTERN、IN

組み合わせたプッシュダウンの例

クエリ機能を強化するには、次の例のようにプッシュダウンタイプを組み合わせます。


SELECT * 
FROM my_table 
WHERE col_a > 10 
    AND ((col_a + col_b) > (col_c % col_d)) 
    AND (col_e IN ('val1', 'val2', 'val3') OR col_f LIKE '%pattern%') 
ORDER BY col_a DESC 
LIMIT 10;

Amazon Redshift などのフェデレーテッドクエリのパフォーマンスを向上させるために述語プッシュダウンを使用する方法の記事については、AWS Big Data Blog の「Improve federated queries with predicate pushdown in Amazon Athena」を参照してください。

パススルークエリ

Redshift コネクタは、パススルークエリをサポートします。パススルークエリは、テーブル関数を使用して、実行のためにクエリ全体をデータソースにプッシュダウンします。

Redshift でパススルークエリを使用するには、以下の構文を使用できます。


SELECT * FROM TABLE(
        system.query(
            query => 'query string'
        ))

以下のクエリ例は、Redshift 内のデータソースにクエリをプッシュダウンします。クエリは customer テーブル内のすべての列を選択し、結果を 10 個に制限します。


SELECT * FROM TABLE(
        system.query(
            query => 'SELECT * FROM customer LIMIT 10'
        ))

その他のリソース

最新の JDBC ドライバーのバージョン情報については、GitHub.com の Redshift コネクタ用の pom.xml ファイルを参照してください。

このコネクタに関するその他の情報については、GitHub.com で対応するサイトを参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Redis OSS

SAP HANA