# DB クラスタースナップショットのエクスポートに関する考慮事項 ## 制限事項 DB スナップショットデータの Amazon S3 へのエクスポートには、次の制限があります。 + 同じ DB クラスタースナップショットに対して複数のエクスポートタスクを同時に実行することはできません。これは、フルエクスポートと部分エクスポートの両方に当てはまります。 + 1 つの AWS アカウントにつき、最大 5 つの DB スナップショットエクスポートタスクを同時に実行できます。 + S3 へのエクスポートでは、コロン (:) を含む S3 プレフィックスをサポートしていません。 + S3 ファイルパスの次の文字は、エクスポート時にアンダースコア (\_) に変換されます。 ``` \ ` " (space) ``` + データベース、スキーマ、またはテーブルの名前に次の文字以外の文字が含まれている場合、部分的なエクスポートはサポートされません。ただし、DB スナップショット全体をエクスポートすることはできます。 + ラテン文字 (A-Z) + 数字 (0-9) + ドル記号 ($) + 下線 (\_) + データベーステーブルの列名では、一部の文字と空白文字の使用はサポートされていません。列名に次の文字が含まれるテーブルは、エクスポート時にスキップされます。 ``` , ; { } ( ) \n \t = (space) ``` + 名前にスラッシュ (/) が含まれるテーブルは、エクスポート時にスキップされます。 + Aurora PostgreSQL の一時テーブルとログに記録されていないテーブルは、エクスポート中にスキップされます。 + データに BLOB や CLOB などの大きいオブジェクト (500 MB に近いか、それ以上) が含まれている場合、エクスポートは失敗します。 + テーブルに、2 GB に近いか、それ以上のサイズの大きな行が含まれている場合、そのテーブルはエクスポート時にスキップされます。 + 部分エクスポートの場合、`ExportOnly` リストの最大サイズは 200 KB です。 + エクスポートタスクごとに一意の名前を使用することを強くお勧めします。一意のタスク名を使用しない場合、次のエラーメッセージが表示されることがあります。 ExportTaskAlreadyExistsFault: StartExportTask オペレーションを呼び出すときにエラー (ExportTaskAlreadyExists) が発生しました。ID {{xxxxx}} のエクスポートタスクは既に存在します。 + データを S3 にエクスポートしている間はスナップショットを削除できますが、エクスポートタスクが完了するまで、そのスナップショットのストレージコストは引き続き課金されます。 + S3 からエクスポートしたスナップショットデータを新しい DB クラスターに復元することはできません。 ## ファイル命名規則特定のテーブルのエクスポートされたデータは、`{{base_prefix}}/{{files}}` の形式で保存されます。そのベースプレフィックスは次のとおりです。 ``` {{export_identifier}}/{{database_name}}/{{schema_name}}.{{table_name}}/ ``` 例: ``` export-1234567890123-459/rdststdb/rdststdb.DataInsert_7ADB5D19965123A2/ ``` ファイルを名付ける方法には、次の 2 つの規則があります。 + 現在の規則: ``` {{batch_index}}/part-{{partition_index}}-{{random_uuid}}.{{format-based_extension}} ``` バッチインデックスは、テーブルから読み込まれたデータのバッチを表すシーケンス番号です。テーブルを小さなチャンクに分割し、並列でエクスポートできない場合は、複数のバッチインデックスになります。テーブルが複数のテーブルにパーティション化されている場合にも同じことが起こります。メインテーブルのテーブルパーティションごとに 1 つずつ、複数のバッチインデックスがあります。テーブルを小さなチャンクに分割し、並列で読み取ることができる場合は、バッチインデックス `1` フォルダのみになります。バッチインデックスフォルダ内には、テーブルのデータを含む 1 つまたは複数の Parquet ファイルがあります。Parquet ファイル名のプレフィックスは `part-{{partition_index}}` です。テーブルがパーティション化されている場合、パーティションインデックス `00000` で始まる複数のファイルになります。パーティションインデックスシーケンスにギャップが生じる可能性があります。これは、各パーティションがテーブル内の範囲クエリから取得されるためです。そのパーティションの範囲内にデータがない場合、そのシーケンス番号はスキップされます。例えば、`id` 列がテーブルのプライマリキーで、その最小値と最大値が `100` と `1000` であるとします。このテーブルを 9 つのパーティションでエクスポートしようとすると、次のような並列クエリで読み取られます。 ``` SELECT * FROM table WHERE id <= 100 AND id < 200 SELECT * FROM table WHERE id <= 200 AND id < 300 ``` これにより、`part-00000-{{random_uuid}}.gz.parquet` から `part-00008-{{random_uuid}}.gz.parquet` までの 9 つのファイルが生成されます。ただし、`200` と `350` の間に ID を持つ行がない場合、完了したパーティションの 1 つが空になり、それに対するファイルも作成されません。前の例では、`part-00001-{{random_uuid}}.gz.parquet` は作成されません。 + 以前の規則: ``` part-{{partition_index}}-{{random_uuid}}.{{format-based_extension}} ``` これは現在の規則と同じですが、例えば、`{{batch_index}}` プレフィックスは除きます。 ``` part-00000-c5a881bb-58ff-4ee6-1111-b41ecff340a3-c000.gz.parquet part-00001-d7a881cc-88cc-5ab7-2222-c41ecab340a4-c000.gz.parquet part-00002-f5a991ab-59aa-7fa6-3333-d41eccd340a7-c000.gz.parquet ``` ファイルの命名規則は変更されることがあります。したがって、ターゲットテーブルを読み込む場合は、テーブルのベースプレフィックス内のすべてを読み込むことをお勧めします。 ## Amazon S3 バケットにエクスポートする際のデータ変換 DB スナップショットを Amazon S3 バケットにエクスポートすると、Amazon Aurora はデータを Parquet 形式に変換してエクスポートし、保存します。Parquet の詳細については、[Apache Parquet](https://parquet.apache.org/docs/) のウェブサイトを参照してください。 Parquet は、すべてのデータを次のプリミティブ型の 1 つとして格納します。 + BOOLEAN + INT32 + INT64 + INT96 + FLOAT + DOUBLE + BYTE\_ARRAY - バイナリとも呼ばれる可変長のバイト配列 + FIXED\_LEN\_BYTE\_ARRAY - 値が一定のサイズを持つ場合に使用される固定長のバイト配列 Parquet のデータ型はほとんど存在せず、この形式の読み書きに伴う複雑さが軽減されるようになっています。Parquet は、プリミティブ型を拡張するための論理的な型を提供します。*論理的な型*は、`LogicalType` メタデータフィールドにデータを持つ注釈として実装されます。論理的な型の注釈は、プリミティブ型の解釈方法を示します。 `STRING` 論理的な型が `BYTE_ARRAY` 型に注釈を付けた場合は、このバイト配列を UTF-8 でエンコードされた文字列として解釈する必要があることを示します。エクスポートタスクが完了すると、Amazon Aurora は文字列変換が発生したかどうかを通知します。エクスポートされた基になるデータは、常に送信元データと同じです。ただし、UTF-8 のエンコーディングに伴う差異により、Athena などのツールで読み取ると、一部の文字はソースと異なるように表示される場合があります。詳細については、Parquet ドキュメントの「[Parquet Logical Type Definitions](https://github.com/apache/parquet-format/blob/master/LogicalTypes.md)」を参照してください。 **Topics** + [MySQL データ型の Parquet へのマッピング](#aurora-export-snapshot.data-types.MySQL) + [PostgreSQL データ型の Parquet へのマッピング](#aurora-export-snapshot.data-types.PostgreSQL) ### MySQL データ型の Parquet へのマッピング次の表は、データが変換されて Amazon S3 にエクスポートされる際の MySQL データ型から Parquet データ型へのマッピングを示しています。

出典データ型	Parquet プリミティブ型	論理的な型の注釈	変換に関するメモ
数値データ型
BIGINT	INT64
BIGINT UNSIGNED	FIXED\_LEN\_BYTE\_ARRAY(9)	DECIMAL(20,0)	Parquet は符号付き型のみをサポートしているため、マッピングは BIGINT\_UNSIGNED 型を格納するために追加のバイト (8 プラス 1) を必要とします。
BIT	BYTE\_ARRAY
DECIMAL	INT32	DECIMAL(p,s)	出典値が 231 未満の場合は、INT32 として格納されます。
	INT64	DECIMAL(p,s)	出典値が 231 以上で 263 未満の場合は、INT64 として格納されます。
	FIXED\_LEN\_BYTE\_ARRAY(N)	DECIMAL(p,s)	出典値が 263 以上の場合は、FIXED\_LEN\_BYTE\_ARRAY(N) として格納されます。
	BYTE\_ARRAY	STRING	Parquet は、38 を超える 10 進精度をサポートしていません。10 進値は、BYTE\_ARRAY 型の文字列に変換され、UTF8 としてエンコードされます。
DOUBLE	DOUBLE
FLOAT	DOUBLE
INT	INT32
INT UNSIGNED	INT64
MEDIUMINT	INT32
MEDIUMINT UNSIGNED	INT64
NUMERIC	INT32	DECIMAL(p,s)	出典値が 231 未満の場合は、INT32 として格納されます。
	INT64	DECIMAL(p,s)	出典値が 231 以上で 263 未満の場合は、INT64 として格納されます。
	FIXED\_LEN\_ARRAY(N)	DECIMAL(p,s)	出典値が 263 以上の場合は、FIXED\_LEN\_BYTE\_ARRAY(N) として格納されます。
	BYTE\_ARRAY	STRING	Parquet は、38 を超える数値精度をサポートしていません。この数値は、BYTE\_ARRAY 型の文字列に変換され、UTF8 としてエンコードされます。
SMALLINT	INT32
SMALLINT UNSIGNED	INT32
TINYINT	INT32
TINYINT UNSIGNED	INT32	INT(16, true)
文字列データ型
BINARY	BYTE\_ARRAY
BLOB	BYTE\_ARRAY
CHAR	BYTE\_ARRAY
ENUM	BYTE\_ARRAY	STRING
LINESTRING	BYTE\_ARRAY
LONGBLOB	BYTE\_ARRAY
LONGTEXT	BYTE\_ARRAY	STRING
MEDIUMBLOB	BYTE\_ARRAY
MEDIUMTEXT	BYTE\_ARRAY	STRING
MULTILINESTRING	BYTE\_ARRAY
SET	BYTE\_ARRAY	STRING
TEXT	BYTE\_ARRAY	STRING
TINYBLOB	BYTE\_ARRAY
TINYTEXT	BYTE\_ARRAY	STRING
VARBINARY	BYTE\_ARRAY
VARCHAR	BYTE\_ARRAY	STRING
日付と時刻のデータ型
DATE	BYTE\_ARRAY	STRING	日付は BYTE\_ARRAY 型の文字列に変換され、UTF8 としてエンコードされます。
DATETIME	INT64	TIMESTAMP\_MICROS
TIME	BYTE\_ARRAY	STRING	TIME 型は BYTE\_ARRAY の文字列に変換され、UTF8 としてエンコードされます。
TIMESTAMP	INT64	TIMESTAMP\_MICROS
YEAR	INT32
ジオメトリデータ型
GEOMETRY	BYTE\_ARRAY
GEOMETRYCOLLECTION	BYTE\_ARRAY
MULTIPOINT	BYTE\_ARRAY
MULTIPOLYGON	BYTE\_ARRAY
POINT	BYTE\_ARRAY
POLYGON	BYTE\_ARRAY
JSON データ型
JSON	BYTE\_ARRAY	STRING

### PostgreSQL データ型の Parquet へのマッピング次の表は、データが変換されて Amazon S3 にエクスポートされる際の PostgreSQL データ型から Parquet データ型へのマッピングを示しています。

PostgreSQL のデータ型	Parquet プリミティブ型	論理的な型の注釈	マッピングに関するメモ
数値データ型
BIGINT	INT64
BIGSERIAL	INT64
DECIMAL	BYTE\_ARRAY	STRING	DECIMAL 型は BYTE\_ARRAY 型の文字列に変換され、UTF8 としてエンコードされます。この変換は、データ精度や、数値ではないデータ値 (NaN) に伴う複雑さを回避するためのものです。
DOUBLE PRECISION	DOUBLE
INTEGER	INT32
MONEY	BYTE\_ARRAY	STRING
REAL	FLOAT
SERIAL	INT32
SMALLINT	INT32	INT(16, true)
SMALLSERIAL	INT32	INT(16, true)
文字列および関連データ型
ARRAY	BYTE\_ARRAY	STRING	配列は文字列に変換され、BINARY (UTF8) としてエンコードされます。この変換は、データ精度、数値ではないデータ値 (NaN)、および時間データ値に伴う複雑さを回避するためのものです。
BIT	BYTE\_ARRAY	STRING
BIT VARYING	BYTE\_ARRAY	STRING
BYTEA	BINARY
CHAR	BYTE\_ARRAY	STRING
CHAR(N)	BYTE\_ARRAY	STRING
ENUM	BYTE\_ARRAY	STRING
NAME	BYTE\_ARRAY	STRING
TEXT	BYTE\_ARRAY	STRING
TEXT SEARCH	BYTE\_ARRAY	STRING
VARCHAR(N)	BYTE\_ARRAY	STRING
XML	BYTE\_ARRAY	STRING
日付と時刻のデータ型
DATE	BYTE\_ARRAY	STRING
INTERVAL	BYTE\_ARRAY	STRING
TIME	BYTE\_ARRAY	STRING
TIME WITH TIME ZONE	BYTE\_ARRAY	STRING
TIMESTAMP	BYTE\_ARRAY	STRING
TIMESTAMP WITH TIME ZONE	BYTE\_ARRAY	STRING
ジオメトリデータ型
BOX	BYTE\_ARRAY	STRING
CIRCLE	BYTE\_ARRAY	STRING
LINE	BYTE\_ARRAY	STRING
LINESEGMENT	BYTE\_ARRAY	STRING
PATH	BYTE\_ARRAY	STRING
POINT	BYTE\_ARRAY	STRING
POLYGON	BYTE\_ARRAY	STRING
JSON データ型
JSON	BYTE\_ARRAY	STRING
JSONB	BYTE\_ARRAY	STRING
その他のデータ型
BOOLEAN	BOOLEAN
CIDR	BYTE\_ARRAY	STRING	ネットワークデータ型
COMPOSITE	BYTE\_ARRAY	STRING
DOMAIN	BYTE\_ARRAY	STRING
INET	BYTE\_ARRAY	STRING	ネットワークデータ型
MACADDR	BYTE\_ARRAY	STRING
OBJECT IDENTIFIER	該当なし
PG\_LSN	BYTE\_ARRAY	STRING
RANGE	BYTE\_ARRAY	STRING
UUID	BYTE\_ARRAY	STRING