의 데이터 형식AWS Clean Rooms - AWS Clean Rooms

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

의 데이터 형식AWS Clean Rooms

데이터를 분석하려면 데이터 세트가에서 AWS Clean Rooms지원하는 형식이어야 합니다.

PySpark 작업에 지원되는 데이터 형식

AWS Clean Rooms는 PySpark 작업을 실행하기 위해 다음과 같은 구조화된 형식을 지원합니다.

  • Parquet

  • OpenCSV

  • JSON

SQL 쿼리에 지원되는 데이터 형식

AWS Clean Rooms는 SQL 쿼리를 실행하기 위해 다양한 구조화된 형식을 지원합니다.

Spark SQL analytics engine
참고

텍스트 파일의 timestamp 값은 yyyy-MM-dd HH:mm:ss.SSSSSS 형식이어야 합니다. 예: 2017-05-01 11:30:59.000000.

Apache Parquet 같은 컬럼 형식 스토리지 파일을 사용하는 것이 좋습니다. 열 기반 스토리지 파일 형식을 사용하면 필요한 열만 선택하여 데이터 이동을 최소화할 수 있습니다. 최적의 성능을 위해 대형 오브젝트는 100mb~1gb 오브젝트로 분할해야 합니다.

지원되는 데이터 유형

AWS Clean Rooms는 다양한 유형을 지원합니다.

  • ARRAY

  • BIGINT

  • BOOLEAN

  • BYTE

  • CHAR

  • DATE

  • DECIMAL

  • FLOAT

  • INTEGER

  • INTERVAL

  • LONG

  • MAP

  • REAL

  • SHORT

  • SMALLINT

  • STRUCT

  • TIME

  • TIMESTAMP_LTZ

  • TIMESTAMP_NTZ

  • TINYINT

  • VARCHAR

자세한 내용은 AWS Clean RoomsSQL 참조의 데이터 유형을 참조하세요.

에 대한 파일 압축 유형AWS Clean Rooms

스토리지 스페이스를 줄이고 성능을 높이며 비용을 최소화하려면 데이터 세트를 압축하는 것이 좋습니다.

AWS Clean Rooms는 파일 확장명을 기반으로 파일 압축 유형을 인식하고 다음 표에 표시된 압축 유형 및 확장명을 지원합니다.

압축 알고리즘 파일 확장명
GZIP .gz
Bzip2 .bz2
Snappy .snappy

여러 레벨에서 압축을 적용할 수 있습니다. 일반적으로 전체 파일을 압축하거나 파일 내의 개별 블록을 압축합니다. 파일 수준에서 열 형식을 압축해도 성능상의 이점이 없습니다.

에 대한 서버 측 암호화AWS Clean Rooms

참고

서버측 암호화는 암호화 컴퓨팅을 필요로 하는 사용 사례에서 암호화 컴퓨팅을 대체하지 않습니다.

AWS Clean Rooms는 다음 암호화 옵션을 사용하여 암호화된 데이터 세트를 투명하게 해독합니다.

  • SSE-S3 - Amazon S3에서 관리하는 AES-256 암호화 키를 사용하는 서버 측 암호화

  • SSE-KMS -에서 관리하는 키를 사용한 서버 측 암호화AWS Key Management Service

SSE-S3를 사용하려면 구성된 테이블을 공동 작업에 연결하는 데 사용되는 AWS Clean Rooms서비스 역할에 KMS 암호 해독 권한이 있어야 합니다. SSE-KMS를 사용하려면 KMS 키 정책에서도 AWS Clean Rooms서비스 역할의 암호 해독을 허용해야 합니다.

AWS Clean Rooms는 Amazon S3 클라이언트 측 암호화를 지원하지 않습니다. 서버 측 암호화에 대한 자세한 내용은 Amazon Simple Storage Service 사용 설명서에서 서버 측 암호화를 사용하여 데이터 보호를 참조하세요.