Erste Schritte mit Apache Spark auf Amazon Athena
Um mit Apache Spark auf Amazon Athena beginnen zu können, müssen Sie zunächst eine Spark-fähige Arbeitsgruppe erstellen. Nachdem Sie zur Arbeitsgruppe gewechselt sind, können Sie ein Notebook erstellen oder ein vorhandenes Notebook öffnen. Wenn Sie ein Notebook in Athena öffnen, wird automatisch eine neue Sitzung dafür gestartet und Sie können direkt im Athena-Notebook-Editor damit arbeiten.
Anmerkung
Stellen Sie sicher, dass Sie eine Spark-fähige Arbeitsgruppe erstellen, bevor Sie versuchen, ein Notebook zu erstellen.
Schritt 1: Erstellen Sie eine Spark-fähige Arbeitsgruppe in Athena
Sie können Arbeitsgruppen in Athena verwenden, um Benutzer, Teams, Anwendungen oder Workloads zu gruppieren und Kosten zu verfolgen. Um Apache Spark in Amazon Athena zu verwenden, erstellen Sie eine Amazon-Athena-Arbeitsgruppe, die eine Spark-Engine verwendet.
Anmerkung
Apache-Spark-fähige Arbeitsgruppen können den Athena-Notebook-Editor verwenden, aber nicht den Athena-Abfrage-Editor. Nur Athena-SQL-Arbeitsgruppen können den Athena-Abfrageeditor verwenden.
So erstellen Sie eine Spark-fähige Arbeitsgruppe in Athena
-
Öffnen Sie die Athena-Konsole unter https://console.aws.amazon.com/athena/
Wenn der Navigationsbereich in der Konsole nicht sichtbar ist, wählen Sie das Erweiterungsmenü auf der linken Seite.
-
Wählen Sie im Navigationsbereich die Option Arbeitsgruppen aus.
-
Wählen Sie auf der Seite Workgroups (Arbeitsgruppen) die Option Create workgroup (Arbeitsgruppe erstellen) aus.
-
Geben Sie als Workgroup name (Arbeitsgruppenname) einen Namen für Ihre Apache-Spark-Arbeitsgruppe ein.
-
(Optional) Geben Sie im Feld Description (Beschreibung) eine Beschreibung für Ihre Arbeitsgruppe ein.
-
Wählen Sie als Analytics engine (Analytik-Engine) die Option Apache Spark aus.
Anmerkung
Nachdem Sie eine Arbeitsgruppe erstellt haben, kann der Analytik-Engine-Typ der Arbeitsgruppe nicht mehr geändert werden. Beispielsweise kann eine Arbeitsgruppe der Athena-Engine-Version 3 nicht in eine Arbeitsgruppe der PySpark-Engine-Version 3 geändert werden.
-
Wählen Sie für die Zwecke dieses Tutorials Turn on example notebook (Beispiel-Notebook aktivieren) aus. Dieses optionale Feature fügt Ihrer Arbeitsgruppe ein Beispiel-Notebook mit dem Namen
example-notebook-hinzu und fügt AWS Glue-bezogene Berechtigungen, die das Notebook verwendet, um bestimmte Datenbanken und Tabellen in Ihrem Konto zu erstellen, anzuzeigen und zu löschen, sowie Leseberechtigungen in Amazon S3 für den Beispieldatensatz hinzu. Um die hinzugefügten Berechtigungen anzuzeigen, wählen Sie View additional permissions details (Details zu zusätzlichen Berechtigungen anzeigen) aus.random_stringAnmerkung
Für den Betrieb des Beispiel-Notebooks können zusätzliche Kosten anfallen.
-
Wählen Sie für die Einstellungen für Berechnungsergebnisse aus den folgenden Optionen:
-
Neuen S3-Bucket erstellen – Mit dieser Option wird in Ihrem Konto ein Amazon-S3-Bucket für Ihre Berechnungsergebnisse erstellt. Der Bucket-Name besitzt das Format
und verwendet die Einstellungen ACLs deaktiviert, öffentlicher Zugriff gesperrt, Versionsverwaltung deaktiviert und Bucket-Eigentümer erzwungen.account_id-region-athena-results-bucket-alphanumeric_id -
Einen vorhandenen S3-Speicherort auswählen – Gehen Sie bei dieser Option wie folgt vor:
-
Geben Sie den S3-Pfad zu einem vorhandenen Speicherort in das Suchfeld ein oder wählen Sie Browse S3 (S3 durchsuchen) aus, um einen Bucket aus einer Liste auszuwählen.
Anmerkung
Wenn Sie einen bereits vorhandenen Speicherort in Amazon S3 auswählen, fügen Sie dem Speicherort keinen nachgestellten Schrägstrich (
/) hinzu. Dies führt dazu, dass der Link zum Speicherort der Berechnungsergebnisse auf der Seite mit den Berechnungsdetails auf das falsche Verzeichnis verweist. Bearbeiten Sie in diesem Fall den Speicherort der Ergebnisse der Arbeitsgruppe, um den nachgestellten Schrägstrich zu entfernen. -
(Optional) Wählen Sie View (Anzeigen) aus, um die Seite Buckets der Amazon-S3-Konsole zu öffnen. Hier finden Sie weitere Informationen über den vorhandenen Bucket, den Sie ausgewählt haben.
-
(Optional) Geben Sie für Expected bucket owner (Erwarteter Bucket-Eigentümer) die AWS-Konto-ID ein, von der Sie erwarten, dass sie der Eigentümer des Buckets für den Ausgabestandort Ihrer Abfrageergebnisse ist. Wir empfehlen Ihnen, diese Option nach Möglichkeit als zusätzliche Sicherheitsmaßnahme zu wählen. Wenn die Konto-ID des Bucket-Eigentümers nicht mit der von Ihnen angegebenen ID übereinstimmt, schlagen Versuche zur Ausgabe an den Bucket fehl. Ausführliche Informationen finden Sie unter Überprüfen der Bucket-Eigentümerschaft mit Bucket-Eigentümer-Bedingung im Amazon-S3-Benutzerhandbuch.
-
(Optional) Wählen Sie Assign bucket owner full control over query results (Bucket-Eigetümer die volle Kontrolle über Abfrageergebnisse zuweisen) aus, wenn der Speicherort Ihrer Berechnungsergebnisse einem anderen Konto gehört und Sie dem anderen Konto die volle Kontrolle über Ihre Abfrageergebnisse geben möchten.
-
-
-
(Optional) Wählen Sie Abfrageergebnisse verschlüsseln aus, wenn Sie die Abfrageergebnisse verschlüsseln möchten.
-
Wählen Sie für Veschlüsselungstyp eine der folgenden Optionen:
-
SSE_S3 – Diese Option verwendet eine serverseitige Verschlüsselung (SSE) mit von Amazon S3 verwalteten Verschlüsselungsschlüsseln.
-
SSE_KMS – Diese Option verwendet eine serverseitige Verschlüsselung (SSE) mit AWS KMS-verwalteten Schlüsseln.
Wählen Sie für Einen AWS KMS-Schlüssel auswählen eine der folgenden Optionen aus.
-
AWS-Schlüssel verwenden – Der AWS KMS-Schlüssel gehört und wird verwaltet von AWS. Für die Verwendung dieses Schlüssels wird Ihnen keine zusätzliche Gebühr berechnet.
-
Wählen Sie einen anderen AWS KMS-Schlüssel (erweitert) – Führen Sie für diese Option einen der folgenden Schritte aus:
-
Um einen vorhandenen Schlüssel zu verwenden, wählen Sie im Suchfeld ein AWS KMS aus oder geben Sie einen Schlüssel-ARN ein.
-
Um einen Schlüssel in der AWS KMS-Konsole zu erstellen, wählen Sie Einen AWS KMS-Schlüssel erstellen aus. Ihre Ausführungsrolle muss über die Berechtigung verfügen, den von Ihnen erstellten Schlüssel verwenden zu können. Nachdem Sie den Schlüssel in der KMS-Konsole erstellt haben, kehren Sie zur Seite Arbeitsgruppe erstellen in der Athena-Konsole zurück und verwenden Sie dann das Suchfeld Einen AWS KMS-Schlüssel auswählen oder einen ARN eingeben, um den soeben erstellten Schlüssel auszuwählen.
-
-
Wichtig
Wenn Sie den AWS KMS key für eine Arbeitsgruppe ändern, verweisen Notebooks, die vor dem Update bearbeitet wurden, weiterhin auf den alten KMS-Schlüssel. Notebooks, die nach dem Update bearbeitet werden, verwenden den neuen KMS-Schlüssel. Um die alten Notebooks so zu aktualisieren, dass sie auf den neuen KMS-Schlüssel verweisen, exportieren und importieren Sie jedes der alten Notebooks. Wenn Sie den alten KMS-Schlüssel löschen, bevor Sie die alten Notebook-Referenzen auf den neuen KMS-Schlüssel aktualisieren, sind die alten Notebooks nicht mehr entschlüsselbar und können nicht wiederhergestellt werden.
Dieses Verhalten gilt auch für Aktualisierungen von Aliassen, bei denen es sich um Anzeigenamen für KMS-Schlüssel handelt. Wenn Sie einen KMS-Schlüssel-Alias aktualisieren, um auf einen neuen KMS-Schlüssel zu verweisen, verweisen die vor der Alias-Aktualisierung verwalteten Notebooks weiterhin auf den alten KMS-Schlüssel und die nach der Alias-Aktualisierung verwalteten Notebooks verwenden den neuen KMS-Schlüssel. Berücksichtigen Sie diese Punkte, bevor Sie Ihre KMS-Schlüssel oder -Aliase aktualisieren.
-
-
-
Wählen Sie für Zusätzliche Konfigurationen die Option Standardwerte verwenden. Diese Option hilft Ihnen beim Einstieg in Ihre Spark-fähige Arbeitsgruppe. Wenn Sie Standardwerte verwenden, erstellt Athena für Sie eine IAM-Rolle und einen Speicherort für Berechnungsergebnisse in Amazon S3. Der Name der IAM-Rolle und der zu erstellende S3-Bucket-Speicherort werden in dem Feld unter der Überschrift Additional configurations (Zusätzliche Konfigurationen) angezeigt.
Fall Sie nicht Standardwerte verwenden möchten, fahren Sie mit den Schritten im (Optional) Ihre eigenen Arbeitsgruppenkonfigurationen festlegen-Abschnitt fort, um Ihre Arbeitsgruppe manuell zu konfigurieren.
-
(Optional) Tags – Verwenden Sie diese Option, um Ihrer Arbeitsgruppe Tags hinzuzufügen. Weitere Informationen finden Sie unter Athena-Ressourcen markieren.
-
Wählen Sie Create workgroup (Arbeitsgruppe erstellen) aus. Eine Meldung informiert Sie darüber, dass die Arbeitsgruppe erfolgreich erstellt wurde, und die Arbeitsgruppe wird in der Liste der Arbeitsgruppen angezeigt.
(Optional) Ihre eigenen Arbeitsgruppenkonfigurationen festlegen
Wenn Sie Ihre eigene IAM-Rolle und den Speicherort der Berechnungsergebnisse für Ihr Notebook festlegen möchten, folgen Sie den Schritten in diesem Abschnitt. Wenn Sie Use defaults (Standardwerte verwenden) für die Option Additional configurations (Zusätzliche Konfigurationen) ausgewählt haben, überspringen Sie diesen Abschnitt und gehen Sie direkt zu Schritt 2: Öffnen Sie den Notebook-Explorer und wechseln die Arbeitsgruppen .
Das folgende Verfahren setzt voraus, dass Sie die Schritte 1 bis 9 des Verfahrens To create a Spark enabled workgroup in Athena (So erstellen Sie eine Spark-fähige Arbeitsgruppe in Athena) im vorherigen Abschnitt abgeschlossen haben.
So legen Sie Ihre eigenen Arbeitsgruppenkonfigurationen fest
-
Wenn Sie Ihre eigene IAM-Rolle erstellen oder verwenden oder die Notebook-Verschlüsselung konfigurieren möchten, erweitern Sie die IAM role configuration (IAM-Rollenkonfiguration).
-
Wählen Sie für Servicerolle zur Autorisierung von Athena einen der folgenden Optionen:
-
Eine neu Servicerolle erstellen un verweden – Wählen Sie diese Option aus, damit Athena eine Servicerolle für Sie erstellt. Um die Berechtigungen anzuzeigen, die die Rolle gewährt, wählen Sie View permission details (Berechtigungsdetails anzeigen).
-
Eine vorhandene Servicerolle verwenden – Wählen Sie aus dem Dropdown-Menü eine vorhandene Rolle aus. Die von Ihnen gewählte Rolle muss die Berechtigungen aus der ersten Option enthalten. Weitere Informationen über Berechtigungen für Notebooks finden Sie unter Fehlerbehebung bei Spark-fähigen Arbeitsgruppen.
-
-
Wählen Sie für die Notebook and calculation code encryption key management (Verwaltung von Notebook- und Berechnungscode-Verschlüsselungsschlüsseln) eine der folgenden Optionen aus:
-
Mit AWS-Schlüssel verschlüsseln (Standard) – Der AWS KMS-Schlüssel gehört und wird verwaltet von AWS. Für die Verwendung dieses Schlüssels wird Ihnen keine zusätzliche Gebühr berechnet.
-
Verschlüsseln mit Ihrem eigenen AWS KMS-Schlüssel – Führen Sie für diese Option einen der folgenden Schritte aus:
-
Um einen vorhandenen Schlüssel zu verwenden, wählen Sie im Suchfeld ein AWS KMS aus oder geben Sie einen Schlüssel-ARN ein.
-
Um einen Schlüssel in der AWS KMS-Konsole zu erstellen, wählen Sie Einen AWS KMS-Schlüssel erstellen aus. Ihre Ausführungsrolle muss über die Berechtigung verfügen, den von Ihnen erstellten Schlüssel verwenden zu können. Nachdem Sie den Schlüssel in der KMS-Konsole erstellt haben, kehren Sie zur Seite Arbeitsgruppe erstellen in der Athena-Konsole zurück und verwenden Sie dann das Suchfeld Einen AWS KMS-Schlüssel auswählen oder einen ARN eingeben, um den soeben erstellten Schlüssel auszuwählen.
-
Wichtig
Wenn Sie den AWS KMS key für eine Arbeitsgruppe ändern, verweisen Notebooks, die vor dem Update bearbeitet wurden, weiterhin auf den alten KMS-Schlüssel. Notebooks, die nach dem Update bearbeitet werden, verwenden den neuen KMS-Schlüssel. Um die alten Notebooks so zu aktualisieren, dass sie auf den neuen KMS-Schlüssel verweisen, exportieren und importieren Sie jedes der alten Notebooks. Wenn Sie den alten KMS-Schlüssel löschen, bevor Sie die alten Notebook-Referenzen auf den neuen KMS-Schlüssel aktualisieren, sind die alten Notebooks nicht mehr entschlüsselbar und können nicht wiederhergestellt werden.
Dieses Verhalten gilt auch für Aktualisierungen von Aliassen, bei denen es sich um Anzeigenamen für KMS-Schlüssel handelt. Wenn Sie einen KMS-Schlüssel-Alias aktualisieren, um auf einen neuen KMS-Schlüssel zu verweisen, verweisen die vor der Alias-Aktualisierung verwalteten Notebooks weiterhin auf den alten KMS-Schlüssel und die nach der Alias-Aktualisierung verwalteten Notebooks verwenden den neuen KMS-Schlüssel. Berücksichtigen Sie diese Punkte, bevor Sie Ihre KMS-Schlüssel oder -Aliase aktualisieren.
-
-
-
(Optional) Other settings (Weitere Einstellungen) – Erweitern Sie diese Option, um die Option Publish CloudWatch metrics (CloudWatch-Metriken veröffentlichen) für die Arbeitsgruppe zu aktivieren oder zu deaktivieren. Dieses Feld ist standardmäßig ausgewählt. Weitere Informationen finden Sie unter Apache Spark-Berechnungen in Athena mit CloudWatch-Metriken überwachen.
-
(Optional) Tags – Verwenden Sie diese Option, um Ihrer Arbeitsgruppe Tags hinzuzufügen. Weitere Informationen finden Sie unter Athena-Ressourcen markieren.
-
Wählen Sie Create workgroup (Arbeitsgruppe erstellen) aus. Eine Meldung informiert Sie darüber, dass die Arbeitsgruppe erfolgreich erstellt wurde, und die Arbeitsgruppe wird in der Liste der Arbeitsgruppen angezeigt.
Schritt 2: Öffnen Sie den Notebook-Explorer und wechseln die Arbeitsgruppen
Bevor Sie die soeben erstellte Spark-fähige Arbeitsgruppe verwenden können, müssen Sie zur Arbeitsgruppe wechseln. Um zwischen Spark-fähigen Arbeitsgruppen zu wechseln, können Sie die Option Workgroup (Arbeitsgruppe) im Notebook-Explorer oder Notebook-Editor verwenden.
Anmerkung
Vergewissern Sie sich bevor Sie anfangen, dass Ihr Browser Cookies von Drittanbietern nicht blockiert. Jeder Browser, der Cookies von Drittanbietern standardmäßig oder per Benutzereinstellung blockiert, verhindert das Starten von Notebooks. Weitere Informationen zum Verwalten von Cookies finden Sie unter:
So öffnen Sie den Notebook-Explorer und wechseln die Arbeitsgruppen
-
Wählen Sie im Navigationsbereich Notebook explorer (Notebook-Explorer) aus.
-
Verwenden Sie die Option Workgroup (Arbeitsgruppe) oben rechts in der Konsole, um die Spark-fähige Arbeitsgruppe auszuwählen, die Sie erstellt haben. Das Beispiel-Notebook wird in der Liste der Notebooks angezeigt.
Sie können den Notebook-Explorer auf folgende Weise verwenden:
-
Wählen Sie den verknüpften Namen eines Notebooks, um das Notebook in einer neuen Sitzung zu öffnen.
-
Verwenden Sie das Menü Actions (Aktionen), um Ihr Notebook umzubenennen, zu löschen oder zu exportieren.
-
Um eine Notebook-Datei zu importieren, wählen Sie Import file (Datei importieren).
-
Um ein Notebook zu erstellen, wählen Sie Create notebook (Notebook erstellen) aus.
-
Schritt 3: Führen Sie das Beispiel-Notebook aus
Das Beispiel-Notebook fragt Daten aus einem öffentlich zugänglichen Datensatz für Taxifahrten in New York City ab. Das Notebook enthält Beispiele, die zeigen, wie Sie mit Spark DataFrames, Spark SQL und AWS Glue Data Catalog arbeiten.
So führen Sie das Beispiel-Notebook aus
-
Wählen Sie im Notebook-Explorer den verknüpften Namen des Beispiel-Notebooks aus.
Dadurch wird eine Notebook-Sitzung mit Standardparametern gestartet und das Notebook im Notebook-Editor geöffnet. Eine Meldung informiert Sie darüber, dass eine neue Apache-Spark-Sitzung mit Standardparametern (maximal 20 DPUs) gestartet wurde.
-
Um die Zellen der Reihe nach auszuführen und die Ergebnisse zu überwachen, wählen Sie einmal für jede Zelle des Notebooks die Schaltfläche Run (Ausführen) aus.
-
Scrollen Sie nach unten, um die Ergebnisse anzuzeigen und neue Zellen einzublenden.
-
Für die Zellen, die eine Berechnung enthalten, zeigt ein Fortschrittsbalken den abgeschlossenen Prozentsatz, die verstrichene Zeit und die verbleibende Zeit an.
-
Das Beispiel-Notebook erstellt eine Beispieldatenbank und -tabelle in Ihrem Konto. Die letzte Zelle entfernt diese in einem Schritt der Datenbereinigung.
-
Anmerkung
Wenn Sie Ordner-, Tabellen- oder Datenbanknamen im Beispiel-Notebook ändern, stellen Sie sicher, dass diese Änderungen in den von Ihnen verwendeten IAM-Rollen widergespiegelt werden. Andernfalls kann das Notebook aufgrund unzureichender Berechtigungen nicht ausgeführt werden.
Schritt 4: Bearbeiten Sie Sitzungsdetails
Nachdem Sie eine Notebook-Sitzung gestartet haben, können Sie Sitzungsdetails wie Tabellenformat, Verschlüsselung, Leerlaufzeit der Sitzung und die maximale Anzahl der Datenverarbeitungseinheiten (DPUs), die Sie gleichzeitig verwenden möchten, bearbeiten. Bei einer DPU handelt es sich um ein relatives Maß der Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht.
So bearbeiten Sie Sitzungsdetails
-
Wählen Sie im Notebook-Editor aus dem Menü Session (Sitzung) oben rechts die Option Edit session (Sitzung bearbeiten) aus.
-
Wählen Sie im Dialogfeld Sitzungsdetails bearbeiten im Abschnitt Spark-Parameter Werte für die folgenden Optionen aus oder geben Sie sie ein:
-
Zusätzliches Tabellenformat – Wählen Sie Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg oder Benutzerdefiniert.
-
Für die Tabellenoptionen Delta, Hudi oder Iceberg werden Ihnen die erforderlichen Tabelleneigenschaften für das entsprechende Tabellenformat automatisch in den Optionen In Tabelle bearbeiten und In JSON bearbeiten zur Verfügung gestellt. Weitere Informationen zum Verwenden dieser Tabellenformate finden Sie unter Nicht-Hive-Tabellenformate in Athena für Spark verwenden.
-
Um Tabelleneigenschaften für die benutzerdefinierte oder andere Tabellenarten hinzuzufügen oder zu entfernen, verwenden Sie die Optionen In Tabelle bearbeiten und In JSON bearbeiten.
-
Wählen Sie für die Option In Tabelle bearbeiten die Option Eigenschaft hinzufügen aus, um eine Eigenschaft hinzuzufügen, oder wählen Sie Entfernen, um eine Eigenschaft zu entfernen. Verwenden Sie die Felder Schlüssel und Wert, um Eigenschaftsnamen und ihre Werte einzugeben.
-
Verwenden Sie für die Option In JSON bearbeiten den JSON-Texteditor, um die Konfiguration direkt zu bearbeiten.
-
Wählen Sie zum Kopieren des JSON-Textes in die Zwischenablage Kopieren aus.
-
Wählen Sie Löschen, um den gesamten Text aus dem JSON-Editor zu entfernen.
-
Wählen Sie das Einstellungssymbol (Zahnrad), um den Zeilenumbruch zu konfigurieren, oder wählen Sie ein Farbdesign für den JSON-Editor.
-
-
-
Spark-Verschlüsselung aktivieren – Wählen Sie diese Option, um Daten zu verschlüsseln, die auf die Festplatte geschrieben und über Spark-Netzwerkknoten gesendet werden. Weitere Informationen finden Sie unter Apache-Spark-Verschlüsselung aktivieren.
-
-
Wählen Sie im Abschnitt Sitzungsparameter die Werte für die folgenden Optionen aus oder geben Sie sie ein:
-
Session idle timeout (Zeitüberschreitung bei Sitzungsleerlauf) – Wählen Sie einen Wert zwischen 1 und 480 Minuten aus oder geben Sie ihn ein. Der Standardwert ist 20.
-
Coordinator size (Größe des Koordinators) – Ein Koordinator ist ein spezieller Executor, der die Verarbeitungsarbeit orchestriert und andere Executors in einer Notebook-Sitzung verwaltet. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert.
-
Executor size (Größe des Executors) – Ein Executor ist die kleinste Recheneinheit, die eine Notebook-Sitzung von Athena anfragen kann. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert.
-
Max concurrent value (Maximaler gleichzeitiger Wert) – Die maximale Anzahl von DPUs, die gleichzeitig ausgeführt werden können. Der Standardwert ist 20, der Mindestwert ist 3 und der Höchstwert ist 60. Wenn Sie diesen Wert erhöhen, werden zusätzliche Ressourcen nicht automatisch zugewiesen. Stattdessen wird Athena versuchen, die Ressourcen bis zum angegebenen Höchstwert zuzuweisen, sofern die Rechenlast dies erfordert und die Ressourcen verfügbar sind.
-
-
Wählen Sie Speichern.
-
Wählen Sie bei der Aufforderung zur Confirm edit (Änderung bestätigen) die Option Confirm (Bestätigen) aus.
Athena speichert Ihr Notebook und startet eine neue Sitzung mit den von Ihnen angegebenen Parametern. Ein Banner im Notebook-Editor informiert Sie darüber, dass eine neue Sitzung mit den geänderten Parametern gestartet wurde.
Anmerkung
Athena merkt sich Ihre Sitzungseinstellungen für dieses Notebook. Wenn Sie die Parameter einer Sitzung bearbeiten und dann die Sitzung beenden, verwendet Athena die Sitzungsparameter, die Sie beim nächsten Start einer Sitzung für das Notebook konfiguriert haben.
Schritt 5: Zeigen Sie Sitzungs- und Berechnungsdetails an
Nachdem Sie das Notebook ausgeführt haben, können Sie Ihre Sitzungs- und Berechnungsdetails anzeigen.
So zeigen Sie Sitzungs- und Berechnungsdetails an
-
Wählen Sie im Menü Session (Sitzung) oben rechts die Option View details (Details anzeigen) aus.
-
Auf der Registerkarte Current session (Aktuelle Sitzung) werden Informationen zur aktuellen Sitzung angezeigt, einschließlich Sitzungs-ID, Erstellungszeit, Status und Arbeitsgruppe.
-
Auf der Registerkarte History (Verlauf) werden die Sitzungs-IDs früherer Sitzungen aufgelistet. Um die Details einer vorherigen Sitzung anzuzeigen, wählen Sie die Registerkarte History (Verlauf) und wählen Sie dann eine Sitzungs-ID aus der Liste aus.
-
Der Abschnitt Calculations (Berechnungen) zeigt eine Liste der Berechnungen, die in der Sitzung ausgeführt wurden.
-
-
Um die Details einer Berechnung anzuzeigen, wählen Sie die Berechnungs-ID aus.
-
Auf der Seite Calculation details (Berechnungsdetails) können Sie Folgendes tun:
-
Den Code für die Berechnung finden Sie im Abschnitt Code.
-
Um die Ergebnisse der Berechnung anzuzeigen, wählen Sie die Registerkarte Results (Ergebnisse).
-
Um die angezeigten Ergebnisse im Textformat herunterzuladen, wählen Sie Download results (Ergebnisse herunterladen) aus.
-
Um Informationen zu den Berechnungsergebnissen in Amazon S3 anzuzeigen, wählen Sie View in S3 (In S3 anzeigen) aus.
-
Schritt 6: Beenden der Sitzung
So beenden Sie die Notebook-Sitzung
-
Wählen Sie im Notebook-Editor im Menü Session (Sitzung) oben rechts die Option Terminate (Beenden) aus.
-
Wählen Sie bei der Aufforderung Confirm session termination (Beenden der Sitzung bestätigen) die Option Confirm (Bestätigen) aus. Ihr Notebook wird gespeichert und Sie kehren zum Notebook-Editor zurück.
Anmerkung
Mit dem Schließen der Notebook-Registerkarte im Notebook-Editor wird die Sitzung für ein aktives Notebook nicht automatisch beendet. Wenn Sie sicherstellen möchten, dass die Sitzung beendet wird, verwenden Sie die Optionen Session (Sitzung) und Terminate (Beenden).
Schritt 7: Erstellen Sie ein eigenes Notebook
Nachdem Sie eine Spark-fähige Athena-Arbeitsgruppe erstellt haben, können Sie Ihr eigenes Notebook erstellen.
So erstellen Sie ein Notebook
-
Wenn der Navigationsbereich in der Konsole nicht sichtbar ist, wählen Sie das Erweiterungsmenü auf der linken Seite.
-
Wählen Sie im Navigationsbereich der Athena-Konsole den Notebook explorer (Notebook-Explorer) oder den Notebook editor (Notebook-Editor) aus.
-
Führen Sie eine der folgenden Aktionen aus:
-
Wählen Sie im Notebook explorer (Notebook-Explorer) die Option Create notebook (Notebook erstellen) aus.
-
Wählen Sie im Notebook explorer (Notebook-Editor) die Option Create notebook (Notebook erstellen) oder klicken Sie auf das Plussymbol (+), um ein Notebook hinzuzufügen.
-
-
Geben Sie im Dialogfeld Create notebook (Notebook erstellen) unter Notebook name (Notebook-Name) einen Namen ein.
-
(Optional) Erweitern Sie die Sitzungsparameter und wählen Sie dann Werte für die folgenden Optionen aus, oder geben Sie diese ein:
-
Zusätzliches Tabellenformat – Wählen Sie Linux Foundation Delta Lake, Apache Hudi, Apache Iceberg oder Benutzerdefiniert.
-
Für die Tabellenoptionen Delta, Hudi oder Iceberg werden Ihnen die erforderlichen Tabelleneigenschaften für das entsprechende Tabellenformat automatisch in den Optionen In Tabelle bearbeiten und In JSON bearbeiten zur Verfügung gestellt. Weitere Informationen zum Verwenden dieser Tabellenformate finden Sie unter Nicht-Hive-Tabellenformate in Athena für Spark verwenden.
-
Um Tabelleneigenschaften für die benutzerdefinierte oder andere Tabellenarten hinzuzufügen oder zu entfernen, verwenden Sie die Optionen In Tabelle bearbeiten und In JSON bearbeiten.
-
Wählen Sie für die Option In Tabelle bearbeiten die Option Eigenschaft hinzufügen aus, um eine Eigenschaft hinzuzufügen, oder wählen Sie Entfernen, um eine Eigenschaft zu entfernen. Verwenden Sie die Felder Schlüssel und Wert, um Eigenschaftsnamen und ihre Werte einzugeben.
-
Verwenden Sie für die Option In JSON bearbeiten den JSON-Texteditor, um die Konfiguration direkt zu bearbeiten.
-
Wählen Sie zum Kopieren des JSON-Textes in die Zwischenablage Kopieren aus.
-
Wählen Sie Löschen, um den gesamten Text aus dem JSON-Editor zu entfernen.
-
Wählen Sie das Einstellungssymbol (Zahnrad), um den Zeilenumbruch zu konfigurieren, oder wählen Sie ein Farbdesign für den JSON-Editor.
-
-
-
Spark-Verschlüsselung aktivieren – Wählen Sie diese Option, um Daten zu verschlüsseln, die auf die Festplatte geschrieben und über Spark-Netzwerkknoten gesendet werden. Weitere Informationen finden Sie unter Apache-Spark-Verschlüsselung aktivieren.
-
-
(Optional) Erweitern Sie die Session parameters (Sitzungsparameter) und wählen Sie dann Werte für die folgenden Optionen aus, oder geben Sie diese ein:
-
Session idle timeout (Zeitüberschreitung bei Sitzungsleerlauf) – wählen Sie einen Wert zwischen 1 und 480 Minuten aus oder geben Sie diesen ein. Der Standardwert ist 20.
-
Coordinator size (Größe des Koordinators) – Ein Koordinator ist ein spezieller Executor, der die Verarbeitungsarbeit orchestriert und andere Executors in einer Notebook-Sitzung verwaltet. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert. Eine DPU (Data Processing Unit) ist ein relatives Maß für die Rechenleistung, die aus 4 vCPUs Rechenkapazität und 16 GB Arbeitsspeicher besteht.
-
Executor size (Größe des Executor) – Ein Executor ist die kleinste Recheneinheit, die eine Notebook-Sitzung von Athena anfragen kann. Derzeit ist 1 DPU der Standardwert und der einzig mögliche Wert.
-
Max concurrent value (Maximaler gleichzeitiger Wert) – Die maximale Anzahl von DPUs, die gleichzeitig ausgeführt werden können. Der Standardwert ist 20 und der Höchstwert ist 60. Wenn Sie diesen Wert erhöhen, werden zusätzliche Ressourcen nicht automatisch zugewiesen. Stattdessen wird Athena versuchen, die Ressourcen bis zum angegebenen Höchstwert zuzuweisen, sofern die Rechenlast dies erfordert und die Ressourcen verfügbar sind.
-
-
Wählen Sie Erstellen aus. Ihr Notebook wird in einer neuen Sitzung im Notebook-Editor geöffnet.
Informationen zur Verwaltung Ihrer Notebook-Dateien finden Sie unter Notebook-Dateien verwalten.