Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Überlegungen und Einschränkungen
Beachten Sie die folgenden Überlegungen und Einschränkungen, wenn Sie Lake Formation mit EMR Serverless verwenden.
Anmerkung
Wenn Sie Lake Formation für einen Spark-Job auf EMR Serverless aktivieren, startet der Job einen Systemtreiber und einen Benutzertreiber. Wenn Sie beim Start vorinitialisierte Kapazität angegeben haben, werden die Treiber anhand der vorinitialisierten Kapazität bereitgestellt, und die Anzahl der Systemtreiber entspricht der Anzahl der von Ihnen angegebenen Benutzertreiber. Wenn Sie On-Demand-Kapazität wählen, startet EMR Serverless zusätzlich zu einem Benutzertreiber einen Systemtreiber. Um die Kosten zu schätzen, die mit Ihrem EMR Serverless with Lake Formation Formation-Job verbunden sind, verwenden Sie den. AWS -Preisrechner
Amazon EMR Serverless with Lake Formation ist in allen unterstützten EMR-Serverless-Regionen verfügbar.
-
Amazon EMR Serverless unterstützt eine differenzierte Zugriffskontrolle über Lake Formation für Lesevorgänge mit Apache Hive-, Apache Iceberg-, Delta Lake- und Hudi-Tabellen. Zu den Apache Hive-Formaten gehören Parquet, ORC und xSv.
-
Lake Formation-fähige Anwendungen unterstützen die Verwendung von benutzerdefinierten EMR Serverless-Images nicht.
-
DynamicResourceAllocationFür Jobs in Lake Formation kann man nicht abschalten. -
Sie können Lake Formation nur mit Spark-Aufträgen verwenden.
-
EMR Serverless mit Lake Formation unterstützt nur eine einzige Spark-Sitzung während eines Jobs.
-
EMR Serverless with Lake Formation unterstützt nur kontenübergreifende Tabellenabfragen, die über Ressourcenlinks gemeinsam genutzt werden.
-
Folgendes wird nicht unterstützt:
-
Resilient Distributed Datasets (RDD)
-
Spark-Streaming
-
Schreiben mit von Lake Formation erteilten Berechtigungen
-
Zugriffskontrolle für verschachtelte Spalten
-
-
EMR Serverless blockiert Funktionen, die die vollständige Isolierung des Systemtreibers untergraben könnten, darunter die folgenden:
-
UDTs, Hive und alle benutzerdefinierten FunktionenUDFs, die benutzerdefinierte Klassen beinhalten
-
Benutzerdefinierte Datenquellen
-
Bereitstellung zusätzlicher JARs für Spark-Erweiterungen, Connectors oder Metastore
-
ANALYZE TABLEcommand
-
-
Um Zugriffskontrollen,
EXPLAIN PLANund DDL-Vorgänge durchzusetzen, z. B.DESCRIBE TABLE, sollten eingeschränkte Informationen nicht offengelegt werden. -
EMR Serverless schränkt den Zugriff auf Systemtreiber-Spark-Protokolle für Lake Formation-fähige Anwendungen ein. Da der Systemtreiber mit erhöhten Rechten ausgeführt wird, können Ereignisse und Protokolle, die der Systemtreiber generiert, vertrauliche Informationen enthalten. Um zu verhindern, dass unbefugte Benutzer oder Code auf diese sensiblen Daten zugreifen, deaktiviert EMR Serverless den Zugriff auf Systemtreiberprotokolle.
Systemprofilprotokolle werden immer im verwalteten Speicher gespeichert — dies ist eine obligatorische Einstellung, die nicht deaktiviert werden kann. Diese Protokolle werden sicher gespeichert und entweder mit einem vom Kunden verwalteten KMS-Schlüssel oder einem AWS verwalteten KMS-Schlüssel verschlüsselt.
Wenn sich Ihre EMR-Serverless-Anwendung in einem privaten Subnetz mit VPC-Endpunkten für Amazon S3 befindet und Sie eine Endpunktrichtlinie zur Zugriffskontrolle anhängen, bevor Ihre Jobs Protokolldaten an AWS Managed Amazon S3 senden können, nehmen Sie die unter Verwalteter Speicher aufgeführten Berechtigungen in Ihre VPC-Richtlinie für den S3-Gateway-Endpunkt auf. Wenden Sie sich bei Anfragen zur Fehlerbehebung an den Support. AWS
-
Wenn Sie einen Tabellenstandort bei Lake Formation registriert haben, durchläuft der Datenzugriffspfad die in Lake Formation gespeicherten Anmeldeinformationen, unabhängig von der IAM-Berechtigung für die EMR-Serverless-Job-Runtime-Rolle. Wenn Sie die mit dem Tabellenspeicherort registrierte Rolle falsch konfigurieren, schlagen gesendete Aufträge fehl, die die Rolle mit der S3-IAM-Berechtigung für den Tabellenspeicherort verwenden.
-
Beim Schreiben in eine Lake-Formation-Tabelle werden IAM-Berechtigungen und nicht die von Lake Formation erteilten Berechtigungen verwendet. Wenn Ihre Auftrag-Laufzeitrolle über die erforderlichen S3-Berechtigungen verfügt, können Sie sie zum Ausführen von Schreibvorgängen verwenden.
Ab Amazon EMR 7.9.0 unterstützt Spark FGAC das AFile S3-System, wenn es mit dem s3a://-Schema verwendet wird.
Im Folgenden werden Einschränkungen und Überlegungen bei der Verwendung von Apache Iceberg aufgeführt:
-
Sie können Apache Iceberg nur mit Sitzungskatalogen und nicht mit beliebig benannten Katalogen verwenden.
-
Iceberg-Tabellen, die in Lake Formation registriert sind, unterstützen nur die Metadatentabellen
historymetadata_log_entries,snapshots,files,manifests, undrefs. Amazon EMR blendet die Spalten aus, die möglicherweise vertrauliche Daten wiepartitionspath, und enthalten.summariesDiese Einschränkung gilt nicht für Iceberg-Tabellen, die nicht in Lake Formation registriert sind. -
Tabellen, die Sie nicht in Lake Formation registrieren, unterstützen alle gespeicherten Iceberg-Prozeduren. Die Prozeduren
register_tableundmigratewerden für keine Tabellen unterstützt. -
Wir empfehlen, Iceberg DataFrameWriter V2 statt V1 zu verwenden.