Amazon EMR on EKS가 AWS Lake Formation과 함께 작동하는 방식 - Amazon EMR

Amazon EMR on EKS가 AWS Lake Formation과 함께 작동하는 방식

Lake Formation과 함께 EKS의 Amazon EMR을 사용하면 각 Spark 작업에 대한 권한 계층을 적용하여 EKS의 Amazon EMR이 작업을 실행할 때 Lake Formation 권한 제어를 적용할 수 있습니다. Amazon EMR on EKS는 Spark 리소스 프로파일을 사용하여 작업을 효과적으로 실행하기 위해 두 개의 프로파일을 생성합니다.https://spark.apache.org/docs/latest/api/java/org/apache/spark/resource/ResourceProfile.html 사용자 프로파일은 사용자 제공 코드를 실행하는 반면, 시스템 프로필은 Lake Formation 정책을 적용합니다. 각 Lake Formation 활성화 작업은 사용자 프로파일용과 시스템 프로파일용의 두 가지 Spark 드라이버를 사용합니다. 자세한 내용은 AWS Lake Formation 소개를 참조하세요.

다음 개요에서는 Amazon EMR on EKS가 Lake Formation 보안 정책에 따라 보호되는 데이터에 액세스하는 방법을 설명합니다.

Lake Formation을 사용한 작업 보안

다음 단계에서는 다음 프로세스에 대해 설명합니다.

  1. 사용자는 AWS Lake Formation 지원 Amazon EMR on EKS 가상 클러스터에 Spark 작업을 제출합니다.

  2. Amazon EMR on EKS 서비스는 사용자 드라이버를 설정하고 사용자 프로필에서 작업을 실행합니다. 사용자 드라이버는 태스크를 시작하고, 실행기를 요청하며, Amazon S3 또는 Glue Data Catalog에 액세스할 수 없는 린 버전의 Spark를 실행합니다. 작업 계획의 빌드만을 수행합니다.

  3. Amazon EMR on EKS 서비스는 시스템 드라이버라는 두 번째 드라이버를 설정하고 시스템 프로파일에서 실행합니다(권한 있는 ID로). Amazon EKS는 통신을 위해 두 드라이버 사이에서 암호화된 TLS 채널을 설정합니다. 사용자 드라이버는 채널을 사용하여 작업 계획을 시스템 드라이버로 전송합니다. 시스템 드라이버는 사용자가 제출한 코드를 실행하지 않습니다. 전체 Spark를 실행하고 Amazon S3 및 데이터 액세스를 위해 Data Catalog와 통신합니다. 실행기를 요청하고 작업 계획을 일련의 실행 단계로 컴파일합니다.

  4. 그런 다음 Amazon EMR on EKS 서비스는 실행기에서 단계를 실행합니다. 모든 단계의 사용자 코드는 사용자 프로파일 실행기에서만 실행됩니다.

  5. Lake Formation으로 보호되는 데이터 카탈로그 테이블에서 데이터를 읽는 단계 또는 보안 필터를 적용하는 단계는 시스템 실행기로 위임됩니다.