So funktioniert Amazon EMR auf EKS mit AWS Lake Formation - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So funktioniert Amazon EMR auf EKS mit AWS Lake Formation

Wenn Sie Amazon EMR on EKS mit Lake Formation verwenden, können Sie für jeden Spark-Job eine Berechtigungsebene erzwingen, um die Lake Formation Formation-Berechtigungssteuerung anzuwenden, wenn Amazon EMR on EKS Jobs ausführt. Amazon EMR on EKS verwendet Spark-Ressourcenprofile, um zwei Profile für die effektive Ausführung von Jobs zu erstellen. Das Benutzerprofil führt vom Benutzer bereitgestellten Code aus, während das Systemprofil die Lake Formation-Richtlinien durchsetzt. Jeder Lake Formation Formation-fähige Job verwendet zwei Spark-Treiber, einen für das Benutzerprofil und einen weiteren für das Systemprofil. Weitere Informationen finden Sie unter Was ist AWS Lake Formation.

Im Folgenden finden Sie einen allgemeinen Überblick darüber, wie Amazon EMR auf EKS Zugriff auf Daten erhält, die durch Sicherheitsrichtlinien von Lake Formation geschützt sind.

Arbeitsplatzsicherheit durch Lake Formation

Die folgenden Schritte beschreiben diesen Prozess:

  1. Ein Benutzer sendet einen Spark-Job an einen AWS Lake Formation-fähigen Amazon EMR auf einem virtuellen EKS-Cluster.

  2. Der Service Amazon EMR on EKS richtet den Benutzertreiber ein und führt den Job im Benutzerprofil aus. Der Benutzertreiber führt eine schlanke Version von Spark aus, die nicht in der Lage ist, Aufgaben zu starten, Executors anzufordern, auf Amazon S3 oder den Glue-Datenkatalog zuzugreifen. Es erstellt nur einen Jobplan.

  3. Der Service Amazon EMR on EKS richtet einen zweiten Treiber ein, der als Systemtreiber bezeichnet wird, und führt ihn im Systemprofil (mit einer privilegierten Identität) aus. Amazon EKS richtet einen verschlüsselten TLS-Kanal zwischen den beiden Treibern für die Kommunikation ein. Der Benutzertreiber verwendet den Kanal, um die Jobpläne an den Systemtreiber zu senden. Der Systemtreiber führt keinen vom Benutzer übermittelten Code aus. Es läuft in vollem Umfang mit Spark und kommuniziert mit Amazon S3 und dem Datenkatalog für den Datenzugriff. Es fordert Ausführende an und stellt den Jobplan in eine Abfolge von Ausführungsphasen zusammen.

  4. Der Service Amazon EMR on EKS führt dann die Phasen auf Executors aus. Der Benutzercode wird in jeder Phase ausschließlich auf Benutzerprofil-Executoren ausgeführt.

  5. Stufen, die Daten aus Datenkatalogtabellen lesen, die durch Lake Formation geschützt sind, oder solche, die Sicherheitsfilter anwenden, werden an Systemausführende delegiert.