기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
의 데이터 형식AWS Clean Rooms
데이터를 분석하려면 데이터 세트가에서 AWS Clean Rooms지원하는 형식이어야 합니다.
주제
PySpark 작업에 지원되는 데이터 형식
AWS Clean Rooms는 PySpark 작업을 실행하기 위해 다음과 같은 구조화된 형식을 지원합니다.
-
Parquet
-
OpenCSV
-
JSON
SQL 쿼리에 지원되는 데이터 형식
AWS Clean Rooms는 SQL 쿼리를 실행하기 위해 다양한 구조화된 형식을 지원합니다.
참고
텍스트 파일의 timestamp 값은 yyyy-MM-dd
HH:mm:ss.SSSSSS 형식이어야 합니다. 예: 2017-05-01 11:30:59.000000.
Apache Parquet 같은 컬럼 형식 스토리지 파일을 사용하는 것이 좋습니다. 열 기반 스토리지 파일 형식을 사용하면 필요한 열만 선택하여 데이터 이동을 최소화할 수 있습니다. 최적의 성능을 위해 대형 오브젝트는 100mb~1gb 오브젝트로 분할해야 합니다.
지원되는 데이터 유형
AWS Clean Rooms는 다양한 유형을 지원합니다.
에 대한 파일 압축 유형AWS Clean Rooms
스토리지 스페이스를 줄이고 성능을 높이며 비용을 최소화하려면 데이터 세트를 압축하는 것이 좋습니다.
AWS Clean Rooms는 파일 확장명을 기반으로 파일 압축 유형을 인식하고 다음 표에 표시된 압축 유형 및 확장명을 지원합니다.
| 압축 알고리즘 | 파일 확장명 |
|---|---|
| GZIP | .gz |
| Bzip2 | .bz2 |
| Snappy | .snappy |
여러 레벨에서 압축을 적용할 수 있습니다. 일반적으로 전체 파일을 압축하거나 파일 내의 개별 블록을 압축합니다. 파일 수준에서 열 형식을 압축해도 성능상의 이점이 없습니다.
에 대한 서버 측 암호화AWS Clean Rooms
참고
서버측 암호화는 암호화 컴퓨팅을 필요로 하는 사용 사례에서 암호화 컴퓨팅을 대체하지 않습니다.
AWS Clean Rooms는 다음 암호화 옵션을 사용하여 암호화된 데이터 세트를 투명하게 해독합니다.
-
SSE-S3 - Amazon S3에서 관리하는 AES-256 암호화 키를 사용하는 서버 측 암호화
-
SSE-KMS -에서 관리하는 키를 사용한 서버 측 암호화AWS Key Management Service
SSE-S3를 사용하려면 구성된 테이블을 공동 작업에 연결하는 데 사용되는 AWS Clean Rooms서비스 역할에 KMS 암호 해독 권한이 있어야 합니다. SSE-KMS를 사용하려면 KMS 키 정책에서도 AWS Clean Rooms서비스 역할의 암호 해독을 허용해야 합니다.
AWS Clean Rooms는 Amazon S3 클라이언트 측 암호화를 지원하지 않습니다. 서버 측 암호화에 대한 자세한 내용은 Amazon Simple Storage Service 사용 설명서에서 서버 측 암호화를 사용하여 데이터 보호를 참조하세요.