Amazon S3 からデータをロードする - Amazon Redshift

Amazon Redshift は、2025 年 11 月 1 日以降、新しい Python UDF の作成をサポートしなくなります。Python UDF を使用する場合は、その日付より前に UDF を作成してください。既存の Python UDF は引き続き通常どおり機能します。詳細については、ブログ記事を参照してください。

Amazon S3 からデータをロードする

COPY コマンドは Amazon Redshift の超並列処理 (MPP) アーキテクチャを利用し、Amazon S3 バケット内の単一もしくは複数のファイルとの間で、データの読み取りやロードを並列的に実行します。ファイルが圧縮されている場合は、データを複数のファイルに分割することで、並列処理の長所を最大限に活用できます。(このルールには例外があります。詳細については、「データファイルのロード」を参照してください。) また、テーブルで分散キーを設定することによっても、並列処理の長所を最大化できます。分散キーの詳細については、「クエリ最適化のためのデータのディストリビューション」を参照してください。

データは、ターゲットテーブルの各行に 1 行が対応するようにロードされます。データファイルのフィールドは左から右の順でテーブル列に一致します。データファイルのフィールドは固定幅か文字区切りになります。デフォルトの区切り文字はパイプ (|) です。デフォルトでは、すべてのテーブル列がロードされますが、任意の列のリストをカンマ区切りで指定することもできます。COPY コマンドに指定された列リストに含まれていない列については、デフォルト値がロードされます。詳細については、「デフォルトの列値をロードする」を参照してください。