고려 사항 고려 사항 버전 7.12 이상용 Lake Formation을 사용하는 Amazon EMR에 대한 고려 사항 권한 로그 및 디버깅 Iceberg

Lake Formation을 사용하는 Amazon EMR에 대한 고려 사항

Lake Formation을 사용하는 Amazon EMR은 사용 가능한 모든 리전에서 사용할 수 있습니다.

Lake Formation 버전 7.9 이하를 사용하는 Amazon EMR에 대한 고려 사항

EMR 7.9 및 이전 버전 AWS Lake Formation 에서를 사용할 때는 다음 사항을 고려하세요.

행, 열 및 셀 수준의 세분화된 액세스 제어는 Amazon EMR 릴리스 6.15 이상이 설치된 클러스터에서 사용할 수 있습니다.
테이블에 액세스할 수 있는 사용자는 해당 테이블의 모든 속성에 액세스할 수 있습니다. 테이블에 Lake Formation 기반 액세스 제어를 사용하는 경우 테이블을 검토하여 속성에 민감한 데이터나 정보가 포함되어 있지 않은지 확인합니다.
Lake Formation을 포함하는 Amazon EMR 클러스터는 Spark가 테이블 통계를 수집할 때 Spark가 HDFS로 폴백하는 기능을 지원하지 않습니다. 이 기능은 일반적으로 쿼리 성능을 최적화하는 데 도움이 됩니다.
관리되지 않는 Apache Spark 테이블을 사용하는 Lake Formation 기반 액세스 제어를 지원하는 작업에는 INSERT INTO 및 INSERT OVERWRITE가 포함됩니다.
Apache Spark 및 Apache Hive에서 Lake Formation 기반 액세스 제어를 지원하는 작업에는 SELECT, DESCRIBE, SHOW DATABASE, SHOW TABLE, SHOW COLUMN, SHOW PARTITION이 있습니다.
Amazon EMR은 다음과 같은 Lake Formation 기반 작업에 대한 액세스 제어를 지원하지 않습니다.
- 관리 테이블에 쓰기
- Amazon EMR에서는 CREATE TABLE을 지원하지 않습니다. Amazon EMR 6.10.0 이상에서는 ALTER TABLE을 지원합니다.
- INSERT 명령 이외의 DML 명령문
동일한 쿼리지만 Lake Formation 기반 액세스 제어 사용 여부에 따라 성능 차이가 있습니다.
Spark 작업에 대해서는 Lake Formation을 사용하는 Amazon EMR만 사용할 수 있습니다.
신뢰할 수 있는 자격 증명 전파는 Glue Data Catalog의 다중 카탈로그 계층 구조에서 지원되지 않습니다. 자세한 내용은 AWS Glue Data Catalog에서 다중 카탈로그 계층 구조 작업을 참조하세요.

Lake Formation 버전 7.10 이상을 사용하는 Amazon EMR에 대한 고려 사항

EMR 7.10 이상 버전 AWS Lake Formation 에서와 함께 Amazon EMR을 사용할 때는 다음 사항을 고려하세요.

Amazon EMR은 Apache Hive, Apache Iceberg, Apache Delta 및 Apache Hudi 테이블에 대해서만 Lake Formation을 통한 세분화된 액세스 제어를 지원합니다. Apache Hive 형식에는 Parquet, ORC 및 xSV CSV가 포함됩니다.
Lake Formation 지원 애플리케이션의 경우 Spark 로그는 시스템 공간 로그와 사용자 공간 로그의 두 그룹으로 Amazon S3에 기록됩니다. 시스템 공간 로그에는 전체 테이블 스키마와 같은 민감한 정보가 포함될 수 있습니다. 이 데이터를 보호하기 위해 Amazon EMR은 시스템 공간 로그를 사용자 공간 로그와 별도의 위치에 저장합니다. 계정 관리자는 사용자에게 시스템 공간 로그에 대한 액세스 권한을 부여하지 않는 것이 좋습니다.
Lake Formation에 테이블 위치를 등록하면 Amazon EMR 작업 런타임 역할이 아닌 등록에 사용되는 역할의 권한에 의해서만 데이터 액세스가 제어됩니다. 등록 역할이 잘못 구성되면 테이블에 액세스하려고 시도하는 작업이 실패합니다.
Lake Formation 작업의 경우 DynamicResourceAllocation을 끌 수 없습니다.
Spark 작업에서 Lake Formation만 사용할 수 있습니다.
Lake Formation을 사용하는 Amazon EMR은 작업 전체에서 단일 Spark 세션만 지원합니다.
Lake Formation을 사용하는 Amazon EMR은 리소스 링크를 통해 공유되는 교차 계정 테이블 쿼리만 지원합니다.
다음은 지원되지 않습니다.
- 복원력 있는 분산 데이터세트(RDD)
- Spark 스트리밍
- Lake Formation에 부여된 권한으로 쓰기
- 중첩된 열에 대한 액세스 제어
Amazon EMR은 다음을 포함하여 시스템 드라이버의 완전한 격리를 저해할 수 있는 기능을 차단합니다.
- UDT, HiveUDF 및 사용자 지정 클래스가 포함된 사용자 정의 함수
- 사용자 지정 데이터 소스
- Spark 확장, 커넥터 또는 메타스토어에 대한 추가 jar 제공
- ANALYZE TABLE 명령
액세스 제어, EXPLAIN PLAN 및 DDL 작업(예: DESCRIBE TABLE)을 적용하려면 제한된 정보를 노출하지 않습니다.
Amazon EMR은 Lake Formation 지원 애플리케이션의 시스템 드라이버 Spark 로그에 대한 액세스를 제한합니다. 시스템 드라이버는 관리자 권한으로 실행되므로 시스템 드라이버가 생성하는 이벤트 및 로그에는 민감한 정보가 포함될 수 있습니다. 권한이 없는 사용자 또는 코드가 이 민감한 데이터에 액세스하지 못하도록 Amazon EMR은 시스템 드라이버 로그에 대한 액세스를 비활성화했습니다.

시스템 프로파일 로그는 항상 관리형 스토리지에 유지되며, 이는 비활성화할 수 없는 필수 설정입니다. 이러한 로그는 고객 관리형 KMS 키 또는 AWS 관리형 KMS 키를 사용하여 안전하게 저장되고 암호화됩니다.

Amazon EMR 애플리케이션이 Amazon S3용 VPC 엔드포인트가 있는 프라이빗 서브넷에 있고 엔드포인트 정책을 연결하여 액세스를 제어하는 경우 작업이 AWS 관리형 Amazon S3로 로그 데이터를 전송하려면 먼저 관리형 스토리지에 자세히 설명된 권한을 VPC 정책에 S3 게이트웨이 엔드포인트에 포함해야 합니다. 요청 문제 해결은 AWS 지원팀에 문의하세요.
Lake Formation에 테이블 위치를 등록한 경우 Amazon EMR 작업 런타임 역할에 대한 IAM 권한과 관계없이 데이터 액세스 경로는 Lake Formation에 저장된 자격 증명을 통과합니다. 테이블 위치에 등록된 역할을 잘못 구성하면 테이블 위치에 대한 S3 IAM 권한이 있는 역할을 사용하는 제출된 작업이 실패합니다.
Lake Formation 테이블에 쓰는 경우 Lake Formation에 부여된 권한이 아닌 IAM 권한을 사용합니다. 작업 런타임 역할에 필요한 S3 권한이 있는 경우 이를 사용하여 쓰기 작업을 실행할 수 있습니다.

다음은 Apache Iceberg를 사용하는 경우 고려 사항 및 제한 사항입니다.

Apache Iceberg는 세션 카탈로그에서만 사용할 수 있으며, 임의로 이름이 지정된 카탈로그에서는 사용할 수 없습니다.
Lake Formation에 등록된 Iceberg 테이블은 메타데이터 테이블 history, metadata_log_entries, snapshots, files, manifests, refs만 지원합니다. Amazon EMR은 partitions, path, summaries와 같이 민감한 데이터를 포함할 수 있는 열을 숨깁니다. 이 제한 사항은 Lake Formation에 등록되지 않은 Iceberg 테이블에 적용되지 않습니다.
Lake Formation에 등록하지 않은 테이블은 모든 Iceberg 저장 프로시저를 지원합니다. register_table 및 migrate 절차는 어떤 테이블에서도 지원되지 않습니다.
V1 대신 Iceberg DataFrameWriterV2를 사용하는 것이 좋습니다.

버전 7.12 이상용 Lake Formation을 사용하는 Amazon EMR에 대한 고려 사항

일반

Amazon EMR에서 Lake Formation을 사용할 때 다음 제한 사항을 검토합니다.

Lake Formation 작업의 경우 DynamicResourceAllocation을 끌 수 없습니다.
Spark 작업에서 Lake Formation만 사용할 수 있습니다.
Lake Formation을 사용하는 Amazon EMR은 작업 전체에서 단일 Spark 세션만 지원합니다.
Lake Formation을 사용하는 Amazon EMR은 리소스 링크를 통해 공유되는 교차 계정 테이블 쿼리만 지원합니다.
다음은 지원되지 않습니다.
- 복원력 있는 분산 데이터세트(RDD)
- Spark 스트리밍
- 중첩된 열에 대한 액세스 제어
Amazon EMR은 다음을 포함하여 시스템 드라이버의 완전한 격리를 저해할 수 있는 기능을 차단합니다.
- UDT, HiveUDF 및 사용자 지정 클래스가 포함된 사용자 정의 함수
- 사용자 지정 데이터 소스
- Spark 확장, 커넥터 또는 메타스토어에 대한 추가 jar 제공
- ANALYZE TABLE 명령
Amazon EMR 애플리케이션이 Amazon S3용 VPC 엔드포인트가 있는 프라이빗 서브넷에 있고 엔드포인트 정책을 연결하여 액세스를 제어하는 경우 작업이 AWS 관리형 Amazon S3로 로그 데이터를 전송하려면 먼저 관리형 스토리지에 자세히 설명된 권한을 VPC 정책에 S3 게이트웨이 엔드포인트에 포함해야 합니다. 요청 문제 해결은 AWS 지원팀에 문의하세요.
Amazon EMR 7.9.0부터 Spark FGAC는 s3a:// 스키마와 함께 사용할 때 S3AFileSystem을 지원합니다.
Amazon EMR 7.11은 CTAS를 사용하여 관리형 테이블 생성을 지원합니다.
Amazon EMR 7.12는 CTAS를 사용하여 관리형 및 외부 테이블 생성을 지원합니다.

권한

액세스 제어를 적용하기 위해 EXPLAIN PLAN 및 DESCRIBE TABLE과 같은 DDL 작업은 제한된 정보를 노출하지 않습니다.
Lake Formation에 테이블 위치를 등록하면 데이터 액세스는 EMR Serverless 작업 런타임 역할의 IAM 권한 대신 Lake Formation에 저장된 자격 증명을 사용합니다. 런타임 역할에 해당 위치에 대한 S3 IAM 권한이 있더라도 테이블 위치에 등록된 역할이 잘못 구성된 경우 작업이 실패합니다.
Amazon EMR 7.12부터 추가 모드에서 Lake Formation 자격 증명과 함께 DataFrameWriter(V2)를 사용하여 기존 Hive 및 Iceberg 테이블에 쓸 수 있습니다. 덮어쓰기 작업의 경우 또는 새 테이블을 생성할 때 EMR은 런타임 역할 자격 증명을 사용하여 테이블 데이터를 수정합니다.
뷰 또는 캐시된 테이블을 소스 데이터로 사용할 때 다음 제한 사항이 적용됩니다(이러한 제한 사항은 AWS Glue Data Catalog 뷰에는 적용되지 않음).
- MERGE, DELETE 및 UPDATE 작업의 경우
  - 지원됨: 뷰 및 캐시된 테이블을 소스 테이블로 사용합니다.
  - 지원되지 않음: 할당 및 조건 절에서 뷰 및 캐시된 테이블 사용.
- CREATE OR REPLACE 및 REPLACE TABLE AS SELECT 작업의 경우:
  - 지원되지 않음: 뷰 및 캐시된 테이블을 소스 테이블로 사용.
소스 데이터에 UDFs 있는 Delta Lake 테이블은 삭제 벡터가 활성화된 경우에만 MERGE, DELETE 및 UPDATE 작업을 지원합니다.

로그 및 디버깅

Amazon EMR은 Lake Formation 지원 애플리케이션의 시스템 드라이버 Spark 로그에 대한 액세스를 제한합니다. 시스템 드라이버는 관리자 권한으로 실행되므로 시스템 드라이버가 생성하는 이벤트 및 로그에는 민감한 정보가 포함될 수 있습니다. 권한이 없는 사용자 또는 코드가 이 민감한 데이터에 액세스하지 못하도록 Amazon EMR은 시스템 드라이버 로그에 대한 액세스를 비활성화했습니다.

시스템 프로파일 로그는 항상 관리형 스토리지에 유지되며, 이는 비활성화할 수 없는 필수 설정입니다. 이러한 로그는 고객 관리형 KMS 키 또는 AWS 관리형 KMS 키를 사용하여 안전하게 저장되고 암호화됩니다.

Iceberg

Apache Iceberg를 사용할 때 다음 고려 사항을 검토합니다.

Apache Iceberg는 세션 카탈로그에서만 사용할 수 있으며, 임의로 이름이 지정된 카탈로그에서는 사용할 수 없습니다.
Lake Formation에 등록된 Iceberg 테이블은 메타데이터 테이블 history, metadata_log_entries, snapshots, files, manifests, refs만 지원합니다. Amazon EMR은 partitions, path, summaries와 같이 민감한 데이터를 포함할 수 있는 열을 숨깁니다. 이 제한 사항은 Lake Formation에 등록되지 않은 Iceberg 테이블에 적용되지 않습니다.
Lake Formation에 등록되지 않은 테이블은 모든 Iceberg 저장 프로시저를 지원합니다. register_table 및 migrate 절차는 어떤 테이블에서도 지원되지 않습니다.
V1 대신 Iceberg DataFrameWriterV2를 사용하는 것이 좋습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon EMR에서 Glue Data Catalog 보기 작업

Spark 네이티브 세분화된 액세스 제어 허용 목록 PySpark API