

 Amazon Redshift は、パッチ 198 以降、新しい Python UDF の作成をサポートしなくなります。既存の Python UDF は、2026 年 6 月 30 日まで引き続き機能します。詳細については、[ブログ記事](https://aws.amazon.com/blogs/big-data/amazon-redshift-python-user-defined-functions-will-reach-end-of-support-after-june-30-2026/)を参照してください。

# ご使用のデータレイクのクエリの実行
<a name="data-lake"></a>

Amazon Redshift Spectrum を使用したクエリにより、データを Amazon Redshift テーブルにロードすることなく、Amazon S3 のファイルのデータを取得できます。Amazon Redshift は、Amazon Redshift クラスターと Amazon S3 データレイクの両方に保存されている非常に大きなデータセットの高速オンライン分析処理(OLAP)用に設計された SQL 機能を提供します。Parquet、ORC、RCFile、TextFile、SequenceFile、RegexSerde、OpenCSV、AVRO など、さまざまな形式でデータをクエリできます。Amazon S3 でファイルの構造を定義するには、外部スキーマとテーブルを作成します。その後、AWS Glue または独自のApache Hive メタストアなど、外部のデータカタログを使用します。いずれの外部データカタログへの変更も、ただちにすべての Amazon Redshift クラスターに反映されます。

AWS Glue データカタログにデータを登録し AWS Lake Formation で有効化した後は、Redshift Spectrum などの複数のサービスを使用して、そのデータをクエリすることができます。

Redshift Spectrum は、クラスターに依存しない専用の Amazon Redshift サーバー上にあります。Redshift Spectrum は、述語フィルタリングや集計など、大量の演算を行う多くのタスクを Redshift Spectrum レイヤーにプッシュします。また、Redshift Spectrum では、インテリジェントなスケーリングにより、超並列処理を活用することもできます。

外部テーブルを1 つ以上の列でパーティション分割し、パーティション消去でクエリのパフォーマンスを最適化することができます。Amazon Redshift テーブルを使用し、外部テーブルのクエリと結合ができます。複数の Amazon Redshift クラスターから外部テーブルにアクセスすることが可能で、同じ AWS リージョン内のあらゆるクラスターから Amazon S3 のデータにクエリを実行できます。Amazon S3 データファイルを更新すると、即時に、あらゆる Amazon Redshift クラスターから、そのデータをクエリすることが可能になります。

Redshift スペクトラムとデータレイクの操作方法など、Redshift スペクトラムの詳細については、*Amazon Redshift データベース開発者ガイド*の「[Amazon Redshift Spectrum の開始方法](https://docs.aws.amazon.com/redshift/latest/dg/c-getting-started-using-spectrum.html)」を参照してください。