のデータ形式AWS Clean Rooms - AWS Clean Rooms

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

のデータ形式AWS Clean Rooms

データを分析するには、データセットが がAWS Clean Roomsサポートする形式である必要があります。

PySpark ジョブでサポートされているデータ形式

AWS Clean Roomsは、PySpark ジョブを実行するために次の構造化形式をサポートしています。

  • Parquet

  • OpenCSV

  • JSON

SQL クエリでサポートされているデータ形式

AWS Clean Roomsは、SQL クエリを実行するためのさまざまな構造化形式をサポートしています。

Spark SQL analytics engine
注記

テキストファイル内の timestamp 値は、yyyy-MM-dd HH:mm:ss.SSSSSS の形式である必要があります。例えば、2017-05-01 11:30:59.000000 です。

Apache Parquet など、列指向ストレージファイル形式を使用することをお勧めします。列指向ストレージファイル形式を使用すると、必要な列のみを選択することで、データの移動を最小限に抑えることができます。最適なパフォーマンスを得るには、大きなオブジェクトを 100 MB ~ 1 GB のオブジェクトに分割する必要があります。

サポートされているデータ型

AWS Clean Roomsはさまざまなタイプをサポートしています。

  • 配列

  • BIGINT

  • BOOLEAN

  • BYTE

  • CHAR

  • DATE

  • DECIMAL

  • FLOAT

  • INTEGER

  • INTERVAL

  • LONG

  • MAP

  • REAL

  • SHORT

  • SMALLINT

  • STRUCT

  • TIME

  • TIMESTAMP_LTZ

  • TIMESTAMP_NTZ

  • TINYINT

  • VARCHAR

詳細については、AWS Clean RoomsSQL リファレンス「データ型」を参照してください。

のファイル圧縮タイプAWS Clean Rooms

ストレージスペースの縮小、パフォーマンスの向上、コストの最小化を行うため、データセットを圧縮することを強くお勧めします。

AWS Clean Roomsは、ファイル拡張子に基づいてファイル圧縮タイプを認識し、次の表に示す圧縮タイプと拡張子をサポートします。

圧縮アルゴリズム ファイル拡張子
GZIP .gz
Bzip2 .bz2
Snappy .snappy

さまざまなレベルで圧縮を適用できます。通常、ファイル全体を圧縮するか、ファイル内の個々のブロックを圧縮します。ファイルレベルで列形式を圧縮しても、パフォーマンス上の利点はありません。

のサーバー側の暗号化AWS Clean Rooms

注記

暗号化コンピューティングを必要とするユースケースで、サーバー側の暗号化が代わりの役割を果たすことはありません。

AWS Clean Roomsは、次の暗号化オプションを使用して暗号化されたデータセットを透過的に復号します。

  • SSE-S3 – Amazon S3 によって管理される AES-256 暗号化キーを使用したサーバー側暗号化。

  • SSE-KMS – によって管理されるキーによるサーバー側の暗号化AWS Key Management Service

SSE-S3 を使用するには、設定済みテーブルをコラボレーションに関連付けるために使用されるAWS Clean Roomsサービスロールに KMS 復号アクセス許可が必要です。SSE-KMS を使用するには、KMS キーポリシーでAWS Clean Roomsサービスロールの復号も許可する必要があります。

AWS Clean Roomsは Amazon S3 クライアント側の暗号化をサポートしていません。サーバー側の暗号化の詳細については、「Amazon Simple Storage Service ユーザーガイド」の「サーバー側の暗号化によるデータの保護」を参照してください。