Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Funktionen, Anforderungen und Einschränkungen von EMR Studio
Dieses Thema enthält Punkte, die Sie bei der Arbeit mit Amazon EMR Studio berücksichtigen sollten, darunter Überlegungen zu Regionen und Tools, Cluster-Anforderungen und technischen Einschränkungen.
Überlegungen
Beachten Sie Folgendes, wenn Sie mit EMR Studio arbeiten:
-
EMR Studio ist in den folgenden AWS-Regionen Versionen verfügbar:
-
USA Ost (Ohio): (us-east-2)
-
USA Ost (Nord-Virginia): (us-east-1)
-
USA West (Nordkalifornien) (us-west-1)
-
USA West (Oregon): (us-west-2)
-
Afrika (Kapstadt) (af-south-1)
-
Asien-Pazifik (Hongkong) (ap-east-1)
-
Asien-Pazifik (Jakarta) (ap-southeast-3) *
-
Asien-Pazifik (Melbourne) (ap-southeast-4) *
-
Asien-Pazifik (Mumbai): (ap-south-1)
-
Asien-Pazifik (Osaka) (ap-northeast-3) *
-
Asien-Pazifik (Seoul): (ap-northeast-2)
-
Asien-Pazifik (Singapur): (ap-southeast-1)
-
Asien-Pazifik (Sydney): (ap-southeast-2)
-
Asien-Pazifik (Tokyo) (ap-northeast-1)
-
Kanada (Zentral): (ca-central-1)
-
Europa (Frankfurt) (eu-central-1)
-
Europa (Irland) (eu-west-1)
-
Europa (London) (eu-west-2)
-
Europa (Mailand) (eu-south-1)
-
Europa (Paris) (eu-west-3)
-
Europa (Spanien) (eu-south-2)
-
Europa (Stockholm) (eu-north-1)
-
Europa (Zürich) (eu-central-2) *
-
Israel (Tel Aviv) il-central-1) *
-
Naher Osten (VAE) (me-central-1) *
-
Südamerika (São Paulo) (sa-east-1)
-
AWS GovCloud (US-Ost) (-1) gov-us-east
-
AWS GovCloud (US-West) (gov-us-west-1)
* Die Live-Spark-Benutzeroberfläche wird in diesen Regionen nicht unterstützt.
-
-
Damit Benutzer neue auf Amazon ausgeführte EMR-Cluster EC2 für einen Workspace bereitstellen können, können Sie ein EMR Studio mit einer Reihe von Cluster-Vorlagen verknüpfen. Administratoren können Clustervorlagen mit Service Catalog definieren und wählen, ob ein Benutzer oder eine Gruppe innerhalb eines Studios auf die Clustervorlagen zugreifen kann oder keine Clustervorlagen.
-
Verwenden Sie die Amazon EMR-Servicerolle, wenn Sie Zugriffsberechtigungen für Notizbuchdateien definieren AWS Secrets Manager, die in Amazon S3 gespeichert sind oder aus denen Geheimnisse gelesen werden. Sitzungsrichtlinien werden mit diesen Berechtigungen nicht unterstützt.
-
Sie können mehrere EMR-Studios erstellen, um den Zugriff auf EMR-Cluster auf verschiedenen Ebenen zu steuern. VPCs
-
Verwenden Sie die AWS CLI , um Amazon EMR auf EKS-Clustern einzurichten. Anschließend können Sie die Studio-Oberfläche verwenden, um Cluster an Workspaces mit einem verwalteten Endpunkt anzuhängen, um Notebook-Jobs auszuführen.
-
Wenn Sie Trusted Identity Propagation mit Amazon EMR verwenden, gibt es weitere Überlegungen, die auch für EMR Studio gelten. Weitere Informationen finden Sie unter Überlegungen und Einschränkungen für Amazon EMR mit Identity-Center-Integration.
-
EMR Studio unterstützt die folgenden magischen Python-Befehle nicht:
-
%alias
-
%alias_magic
-
%automagic
-
%macro
-
%%js
-
%%javascript
-
Ändern von
proxy_user
mit%configure
-
Ändern von
KERNEL_USERNAME
mit%env
oder%set_env
-
-
Amazon EMR auf EKS-Clustern unterstützt keine SparkMagic Befehle für EMR Studio.
-
Um mehrzeilige Scala-Anweisungen in Notebookzellen zu schreiben, stellen Sie sicher, dass alle Zeilen bis auf die letzte mit einem Punkt enden. Im folgenden Beispiel wird die richtige Syntax für mehrzeilige Scala-Anweisungen verwendet.
val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
Um die Sicherheit der Anwendungen außerhalb der Konsole zu erhöhen, die Sie möglicherweise mit Amazon EMR verwenden, sind die Anwendungs-Hosting-Domains in der Public Suffix List (PSL) registriert. Zu diesen Hosting-Domains gehören beispielsweise die folgenden:
emrstudio-prod.us-east-1.amazonaws.com
,emrnotebooks-prod.us-east-1.amazonaws.com
,emrappui-prod.us-east-1.amazonaws.com
. Aus Sicherheitsgründen empfehlen wir Ihnen, Cookies mit einem__Host-
-Präfix zu verwenden, falls Sie jemals sensible Cookies im Standard-Domainnamen einrichten müssen. Diese Vorgehensweise hilft Ihnen dabei, Ihre Domain vor CSRF (Cross-Site Request Forgery Attempts, Anforderungsfälschung zwischen Websites)-Versuchen zu schützen. Weitere Informationen finden Sie auf der Set-Cookie-Seite im Mozilla Developer Network. -
Amazon EMR Studio Workspaces und Persistent UI Endpoints verwenden FIPS 140-validierte kryptografische Module für encryption-in-transit, was eine einfachere Einführung des Service für regulierte Workloads ermöglicht. Weitere Informationen zu Endpunkten mit persistenten Benutzeroberflächen finden Sie unter Benutzerschnittstellen für persistente Anwendungen in Amazon EMR anzeigen. Weitere Informationen zu Notebooks finden Sie in der Übersicht über Amazon EMR Notebooks.
Bekannte Probleme
-
Ein EMR Studio, das IAM Identity Center mit aktivierter Weitergabe vertrauenswürdiger Identitäten verwendet, kann nur EMR-Clustern zugeordnet werden, die auch vertrauenswürdige Identitätsverteilung verwenden.
-
Stellen Sie sicher, dass Sie Proxy-Management-Tools wie FoxyProxy oder SwitchyOmega im Browser deaktivieren, bevor Sie ein Studio erstellen. Aktive Proxys können Fehler verursachen, wenn Sie Studio erstellen wählen, und zu einer Netzwerkfehler-Fehlermeldung führen.
-
Kernel, die auf Amazon EMR in EKS-Clustern ausgeführt werden, können aufgrund von Timeout-Problemen nicht gestartet werden. Wenn beim Starten des Kernels ein Fehler oder ein Problem auftritt, schließen Sie die Notebook-Datei, fahren Sie den Kernel herunter und öffnen Sie die Notebook-Datei erneut.
-
Der Kernel-Neustartvorgang funktioniert nicht wie erwartet, wenn Sie einen Cluster von Amazon EMR in EKS verwenden. Nachdem Sie Kernel neu starten ausgewählt haben, aktualisieren Sie den Workspace, damit der Neustart wirksam wird.
-
Wenn ein Workspace nicht an einen Cluster angehängt ist, wird eine Fehlermeldung angezeigt, wenn ein Studio-Benutzer eine Notebook-Datei öffnet und versucht, einen Kernel auszuwählen. Sie können diese Fehlermeldung ignorieren, indem Sie OK wählen, aber Sie müssen den Workspace an einen Cluster anhängen und einen Kernel auswählen, bevor Sie Notebook-Code ausführen können.
-
Wenn Sie Amazon EMR 6.2.0 mit einer Sicherheitskonfiguration verwenden, um die Clustersicherheit einzurichten, erscheint die Workspace-Oberfläche leer und funktioniert nicht wie erwartet. Wir empfehlen Ihnen, eine andere unterstützte Version von Amazon EMR zu verwenden, wenn Sie Datenverschlüsselung oder Amazon-S3-Autorisierung für EMRFS für einen Cluster konfigurieren möchten. EMR Studio funktioniert mit den Amazon-EMR-Versionen 5.32.0 (Amazon-EMR-5.x-Serie) und 6.2.0 (Amazon-EMR-6.x-Serie) und höher.
-
Wenn Sie Debuggen Sie Amazon EMR, das auf Amazon-Jobs ausgeführt wird EC2 , funktionieren die Links zur Spark-Benutzeroberfläche auf dem Cluster möglicherweise nicht oder werden nicht angezeigt. Um die Links zu regenerieren, erstellen Sie eine neue Notebook-Zelle und führen Sie den
%%info
-Befehl aus. -
Jupyter Enterprise Gateway bereinigt in den folgenden Amazon-EMR-Release-Versionen keine inaktiven Kernel auf dem Primärknoten eines Clusters: 5.32.0, 5.33.0, 6.2.0 und 6.3.0. Kernel im Leerlauf verbrauchen Rechenressourcen und können dazu führen, dass Cluster mit langer Laufzeit ausfallen. Mit dem folgenden Beispielskript können Sie die Kernelbereinigung im Leerlauf für Jupyter Enterprise Gateway konfigurieren. Sie können Stellen Sie mithilfe von SSH eine Connect zum primären Knoten des Amazon EMR-Clusters her oder das Skript als Schritt einreichen. Weitere Informationen finden Sie unter Befehle und Skripts auf einem Amazon-EMR-Cluster ausführen.
#!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
-
Wenn Sie eine automatische Terminierungsrichtlinie mit den Amazon-EMR-Versionen 5.32.0, 5.33.0, 6.2.0 oder 6.3.0 verwenden, markiert Amazon EMR einen Cluster als inaktiv und beendet den Cluster möglicherweise automatisch, auch wenn Sie einen aktiven Python3-Kernel haben. Das liegt daran, dass bei der Ausführung eines Python3-Kernels kein Spark-Job auf dem Cluster gesendet wird. Um die automatische Terminierung mit einem Python3-Kernel zu verwenden, empfehlen wir die Verwendung von Amazon-EMR-Version 6.4.0 oder höher. Weitere Informationen zum Auto-Beenden finden Sie unter Verwenden einer automatischen Terminierungsrichtlinie für die Amazon EMR-Clusterbereinigung.
-
Wenn Sie
%%display
einen Spark DataFrame in einer Tabelle anzeigen, können sehr breite Tabellen gekürzt werden. Sie können mit der rechten Maustaste auf die Ausgabe klicken und Neue Ansicht für Ausgabe erstellen auswählen, um eine scrollbare Ansicht der Ausgabe zu erhalten. -
Wenn Sie einen Spark-basierten Kernel wie PySpark Spark oder SparkR starten, wird eine Spark-Sitzung gestartet, und wenn Sie eine Zelle in einem Notizbuch ausführen, werden Spark-Jobs in dieser Sitzung in die Warteschlange gestellt. Wenn Sie eine laufende Zelle unterbrechen, wird der Spark-Auftrag weiter ausgeführt. Um den Spark-Auftrag zu beenden, sollten Sie die Cluster-interne Spark-Benutzeroberfläche verwenden. Weitere Informationen zur Verbindung mit einer Spark-Benutzeroberfläche finden Sie unter Debuggen von Anwendungen und Aufträgen mit EMR Studio.
-
Die Verwendung von Amazon EMR Studio Workspaces als Root-Benutzer in einem AWS-Konto verursacht einen
403: Forbidden
Fehler. Dies liegt daran, dass die Jupyter Enterprise Gateway-Konfiguration in Amazon EMR dem Root-Benutzer keinen Zugriff gewährt. Wir empfehlen, den Root-Benutzer nicht für Ihre täglichen Aufgaben zu verwenden. Weitere Authentifizierungsoptionen finden Sie unter AWS Identity and Access Management Amazon EMR.
Feature-Einschränkungen
Amazon EMR Studio unterstützt die folgenden Amazon-EMR-Feature nicht:
-
Anhängen und Ausführen von Aufträgen auf EMR-Clustern mit einer Sicherheitskonfiguration, die die Kerberos-Authentifizierung spezifiziert
-
Cluster mit mehreren Primärknoten
-
Cluster, die EC2 Amazon-Instances auf Basis von AWS Graviton2 für Amazon EMR 6.x-Versionen unter 6.9.0 und 5.x-Versionen unter 5.36.1 verwenden
Die folgenden Features werden von einem Studio, das die Verbreitung vertrauenswürdiger Identitäten verwendet, nicht unterstützt:
-
Erstellen von EMR-Clustern ohne Vorlage.
-
Verwenden von EMR-Serverless-Anwendungen.
-
Starten von Amazon EMR in EKS-Clustern.
-
Verwenden einer Laufzeitrolle.
-
Aktivieren der Zusammenarbeit mit SQL Explorer oder Workspace.
Service-Limits für EMR Studio
In der folgenden Tabelle werden die Service-Limits für EMR Studio aufgeführt.
Item | Limit |
---|---|
EMR Studios | AWS Maximal 100 pro Konto |
Subnetze | Maximal fünf für jedes EMR-Studio |
IAM-Identity-Center-Gruppen | Maximal fünf für jedes EMR-Studio |
Benutzer von IAM Identity Center | Maximal 100 für jedes EMR-Studio |