本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
的資料格式AWS Clean Rooms
若要分析資料,資料集必須採用 AWS Clean Rooms支援的格式。
PySpark 任務支援的資料格式
AWS Clean Rooms支援執行 PySpark 任務的下列結構化格式。
-
Parquet
-
OpenCSV
-
JSON
SQL 查詢支援的資料格式
AWS Clean Rooms支援執行 SQL 查詢的不同結構化格式
注意
文字檔案中timestamp的值必須採用 格式yyyy-MM-dd HH:mm:ss.SSSSSS。例如:2017-05-01 11:30:59.000000。
建議使用單欄式儲存檔案格式,例如 Apache Parquet。使用單欄式儲存檔案格式,您只需選取所需的資料欄,即可將資料移動降至最低。為了獲得最佳效能,大型物件應分割為 100mb–1gb 物件。
支援的資料類型
AWS Clean Rooms支援不同類型的 。
的檔案壓縮類型AWS Clean Rooms
為了減少儲存空間、改善效能並將成本降至最低,強烈建議您壓縮資料集。
AWS Clean Rooms會根據副檔名來辨識檔案壓縮類型,並支援下表所示的壓縮類型和副檔名。
| 壓縮演算法 | 副檔名 |
|---|---|
| GZIP | .gz |
| Bzip2 | .bz2 |
| Snappy | .snappy |
您可以套用不同層級的壓縮。最常見的是,您可以壓縮整個檔案或壓縮檔案中的個別區塊。在檔案層級壓縮單欄格式不會產生效能優勢。
的伺服器端加密AWS Clean Rooms
注意
伺服器端加密不會取代那些需要密碼編譯運算的使用案例。
AWS Clean Rooms以透明方式解密使用下列加密選項加密的資料集:
-
SSE-S3 – 使用由 Amazon S3 管理的 AES-256 加密金鑰進行伺服器端加密
-
SSE-KMS – 使用 管理的金鑰進行伺服器端加密AWS Key Management Service
若要使用 SSE-S3,用於將設定的資料表與協同合作建立關聯的AWS Clean Rooms服務角色必須具有 KMS-decrypt 許可。若要使用 SSE-KMS,KMS 金鑰政策也必須允許 AWS Clean Rooms服務角色解密。
AWS Clean Rooms不支援 Amazon S3 用戶端加密。如需伺服器端加密的詳細資訊,請參閱《Amazon Simple Storage Service 使用者指南》中的使用伺服器端加密保護資料。