Haftungsausschluss für Datenadministratoren Verantwortlichkeiten der EKS-Administratoren

Überlegungen und Einschränkungen

Beachten Sie die folgenden Überlegungen und Einschränkungen, wenn Sie Lake Formation mit Amazon EMR auf EKS verwenden:

Amazon EMR on EKS unterstützt eine differenzierte Zugriffskontrolle über Lake Formation nur für die Tabellenformate Apache Hive, Apache Iceberg, Apache Hudi und Delta. Zu den Apache Hive-Formaten gehören Parquet, ORC und xSv.
DynamicResourceAllocationist standardmäßig aktiviert und kann DynamicResourceAllocation für Lake Formation Formation-Jobs nicht deaktiviert werden. Da der Standardwert der spark.dynamicAllocation.maxExecutors DRA-Konfiguration unendlich ist, konfigurieren Sie bitte einen geeigneten Wert, der Ihrer Arbeitslast entspricht.
spark.dynamicAllocation.preallocateExecutorsIst standardmäßig in Amazon EMR Spark aktiviert, was zu einer übermäßigen Abwanderung von Containern führen kann, wenn sie nicht spark.dynamicAllocation.initialExecutors eingerichtet spark.dynamicAllocation.minExecutors sind. Empfohlene Konfigurationen für die Verwaltung der Vorbelegung von Executoren finden Sie im Abschnitt unter. Leistung Links zu Best-Practice-Leitfäden für Amazon EMR on EKS unter GitHub
Lake Formation-fähige Jobs unterstützen die Verwendung von benutzerdefiniertem EMR auf EKS-Images in System Driver und System Executors nicht.
Sie können Lake Formation nur mit Spark-Aufträgen verwenden.
EMR auf EKS mit Lake Formation unterstützt nur eine einzige Spark-Sitzung während eines Jobs.
EMR auf EKS mit Lake Formation unterstützt nur kontenübergreifende Tabellenabfragen, die über Ressourcenlinks gemeinsam genutzt werden.
Folgendes wird nicht unterstützt:
- Resilient Distributed Datasets (RDD)
- Spark-Streaming
- Schreiben mit von Lake Formation erteilten Berechtigungen
- Zugriffskontrolle für verschachtelte Spalten
EMR auf EKS blockiert Funktionen, die die vollständige Isolierung des Systemtreibers untergraben könnten, darunter die folgenden:
- UDTs, Hive und alle benutzerdefinierten FunktionenUDFs, die benutzerdefinierte Klassen beinhalten
- Benutzerdefinierte Datenquellen
- Bereitstellung zusätzlicher JAR-Dateien für Spark-Erweiterungen, Konnektoren oder Metastore-Befehle ANALYZE TABLE
Um Zugriffskontrollen, EXPLAIN PLAN und DDL-Vorgänge durchzusetzen, z. B. DESCRIBE TABLE, sollten eingeschränkte Informationen nicht offengelegt werden.
Amazon EMR on EKS schränkt den Zugriff auf Systemtreiber-Spark-Protokolle für Lake Formation-fähige Jobs ein. Weil der Systemtreiber mit mehr Zugriffsrechten ausgeführt wird, können Ereignisse und Protokolle, die der Systemtreiber generiert, vertrauliche Informationen enthalten. Um zu verhindern, dass unbefugte Benutzer oder Code auf diese sensiblen Daten zugreifen, hat EMR auf EKS den Zugriff auf Systemtreiberprotokolle deaktiviert. Wenden Sie sich zur Fehlerbehebung an den AWS Support.
Wenn Sie einen Tabellenstandort bei Lake Formation registriert haben, durchläuft der Datenzugriffspfad die in Lake Formation gespeicherten Anmeldeinformationen, unabhängig von der IAM-Berechtigung für die Jobausführungsrolle EMR on EKS. Wenn Sie die mit dem Tabellenspeicherort registrierte Rolle falsch konfigurieren, schlagen übermittelte Jobs fehl, die die Rolle mit S3-IAM-Berechtigungen für den Tabellenspeicherort verwenden.
Beim Schreiben in eine Lake-Formation-Tabelle werden IAM-Berechtigungen und nicht die von Lake Formation erteilten Berechtigungen verwendet. Wenn Ihre Jobausführungsrolle über die erforderlichen S3-Berechtigungen verfügt, können Sie sie zum Ausführen von Schreibvorgängen verwenden.

Im Folgenden werden Einschränkungen und Überlegungen bei der Verwendung von Apache Iceberg aufgeführt:

Sie können Apache Iceberg nur mit Sitzungskatalogen und nicht mit beliebig benannten Katalogen verwenden.
Iceberg-Tabellen, die in Lake Formation registriert sind, unterstützen nur die Metadatentabellen historymetadata_log_entries,snapshots,files,manifests, undrefs. Amazon EMR blendet die Spalten aus, die möglicherweise vertrauliche Daten wie partitionspath, und enthalten. summaries Diese Einschränkung gilt nicht für Iceberg-Tabellen, die nicht in Lake Formation registriert sind.
Tabellen, die Sie nicht in Lake Formation registrieren, unterstützen alle gespeicherten Iceberg-Prozeduren. Die Prozeduren register_table und migrate werden für keine Tabellen unterstützt.
Wir empfehlen, Iceberg DataFrameWriter V2 statt V1 zu verwenden.

Weitere Informationen finden Sie unter Understanding Amazon EMR on EKS Concepts and Terminology and Enable Cluster Access for Amazon EMR on EKS.

Haftungsausschluss für Datenadministratoren

Anmerkung

Wenn Sie einer IAM-Rolle für EMR auf EKS Zugriff auf Lake Formation Formation-Ressourcen gewähren, müssen Sie sicherstellen, dass der EMR-Clusteradministrator oder -Operator ein vertrauenswürdiger Administrator ist. Dies ist besonders relevant für Lake Formation Formation-Ressourcen, die von mehreren Organisationen und AWS Konten gemeinsam genutzt werden.

Verantwortlichkeiten der EKS-Administratoren

Der System Namespace sollte geschützt werden. Kein Benutzer, keine Ressource, keine Entität oder kein Tool darf über Kubernetes-RBAC-Berechtigungen für die Kubernetes-Ressourcen im Namespace verfügen. System
Kein Benutzer, keine Ressource oder Entität außer dem EMR on EKS-Dienst sollte CREATE Zugriff auf POD, CONFIG_MAP und SECRET im Namespace haben. User
SystemTreiber und System Executoren enthalten sensible Daten. Daher sollten Spark-Ereignisse, Spark-Treiberprotokolle und Spark-Executor-Protokolle im System Namespace nicht an externe Protokollspeichersysteme weitergeleitet werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Aktivieren Sie Lake Formation mit Amazon EMR auf EKS

Fehlerbehebung