Daten mit Amazon Athena abfragen Daten mit Amazon Redshift abfragen

Daten in Amazon Athena oder Amazon Redshift in Amazon abfragen DataZone

Sobald ein Abonnent in Amazon DataZone Zugriff auf ein Asset im Katalog hat, kann er es mit Amazon Athena oder dem Amazon Redshift Query Editor v2 nutzen (abfragen und analysieren). Sie müssen Projekteigentümer oder Mitwirkender sein, um diese Aufgabe abschließen zu können. Abhängig von den im Projekt aktivierten Blueprints DataZone stellt Amazon Links zu Amazon Athena and/or Amazon Redshift Query Editor v2 auf der rechten Seite der Projektseite im Datenportal bereit.

Navigieren Sie zur URL des DataZone Amazon-Datenportals und melden Sie sich mit Single Sign-On (SSO) oder Ihren AWS Anmeldeinformationen an. Wenn Sie ein DataZone Amazon-Administrator sind, können Sie unter https://console.aws.amazon.com/datazone zur DataZone Amazon-Konsole navigieren und sich dort anmelden, AWS-Konto wo die Domain erstellt wurde, und dann Datenportal öffnen wählen.
Wählen Sie im DataZone Amazon-Datenportal die Option Projektliste durchsuchen und suchen Sie dann das Projekt, in dem Sie die Daten haben, die Sie analysieren möchten, und wählen Sie es aus.
Wenn der Data Lake-Blueprint für dieses Projekt aktiviert ist, wird im rechten Seitenbereich auf der Startseite des Projekts ein Link zu Amazon Athena angezeigt.

Wenn der Data Warehouse-Blueprint für dieses Projekt aktiviert ist, wird im rechten Seitenbereich auf der Startseite des Projekts ein Link zum Abfrage-Editor angezeigt.

Anmerkung
Blueprints werden in dem Umgebungsprofil definiert, mit dem ein Projekt erstellt wird.

Daten mit Amazon Athena abfragen

Wählen Sie den Amazon Athena Athena-Link, um den Amazon Athena Athena-Abfrage-Editor auf einer neuen Registerkarte im Browser zu öffnen und dabei die Anmeldeinformationen des Projekts zur Authentifizierung zu verwenden. Das DataZone Amazon-Projekt, mit dem Sie arbeiten, wird im Abfrage-Editor automatisch als aktuelle Arbeitsgruppe ausgewählt.

Schreiben Sie Ihre Abfragen im Amazon Athena Athena-Abfrage-Editor und führen Sie sie aus. Zu den häufigsten Aufgaben gehören:

Fragen Sie Ihre abonnierten Ressourcen ab und analysieren Sie sie
Neue Tabellen erstellen
Erstellen Sie eine Tabelle aus Abfrageergebnissen (CTAS) aus einem externen S3-Bucket

Fragen Sie Ihre abonnierten Ressourcen ab und analysieren Sie sie

Wenn der Zugriff auf die Ressourcen, die Ihr Projekt abonniert hat, nicht automatisch von Amazon gewährt wird DataZone, müssen Sie berechtigt sein, auf die zugrunde liegenden Daten zuzugreifen. Weitere Informationen darüber, wie Sie Zugriff auf diese Ressourcen gewähren können, finden Sie unterGewähren Sie den Zugriff für genehmigte Abonnements auf nicht verwaltete Ressourcen in Amazon DataZone.

Wenn der Zugriff auf die Ressourcen, die Ihr Projekt abonniert hat, automatisch von Amazon gewährt wird DataZone, können Sie SQL-Abfragen für die Tabellen ausführen und die Ergebnisse in Amazon Athena anzeigen. Weitere Informationen zur Verwendung von SQL in Amazon Athena finden Sie unter SQL-Referenz für Athena.

Wenn Sie zum Amazon Athena Athena-Abfrage-Editor navigieren, nachdem Sie den Amazon Athena Athena-Link im rechten Bereich auf der Startseite des Projekts ausgewählt haben, wird in der oberen rechten Ecke des Amazon Athena Athena-Abfrage-Editors ein Projekt-Drop-down-Menü angezeigt und Ihr Projektkontext wird automatisch ausgewählt.

In der Dropdownliste „Datenbank“ können Sie die folgenden Datenbanken sehen:

Eine Veröffentlichungsdatenbank ({environmentname}_pub_db). Der Zweck dieser Datenbank besteht darin, Ihnen eine Umgebung zu bieten, in der Sie im Kontext Ihres Projekts neue Daten erstellen und diese Daten dann im DataZone Amazon-Katalog veröffentlichen können. Projekteigentümer und Mitwirkende haben Lese- und Schreibzugriff auf diese Datenbank. Projektbetrachter haben nur Lesezugriff auf diese Datenbank.
Eine Abonnementdatenbank ({environmentname}_sub_db). Der Zweck dieser Datenbank besteht darin, Ihnen die Daten, die Sie als Projektmitglied im DataZone Amazon-Katalog abonniert haben, zur Verfügung zu stellen und es Ihnen zu ermöglichen, diese Daten abzufragen.

Neue Tabellen erstellen

Wenn Sie eine Verbindung zu einem externen S3-Bucket hergestellt haben, können Sie Amazon Athena verwenden, um die Ressourcen aus einem externen Amazon S3 S3-Bucket abzufragen und zu analysieren. In diesem Szenario DataZone hat Amazon keine Berechtigungen, um direkten Zugriff auf die zugrunde liegenden Daten im externen Amazon S3 S3-Bucket zu gewähren, und die externen Amazon S3 S3-Daten, die außerhalb des Projekts erstellt wurden, werden nicht automatisch in Lake Formation verwaltet und können auch nicht von Amazon verwaltet werden DataZone. Eine Alternative besteht darin, die Daten mithilfe einer CREATE TABLE Anweisung in Amazon Athena aus dem externen Amazon S3-Bucket in eine neue Tabelle im Amazon S3 S3-Bucket des Projekts zu kopieren. Wenn Sie eine CREATE TABLE Abfrage in Amazon Athena ausführen, registrieren Sie Ihre Tabelle bei der AWS Glue Data Catalog.

Zur Angabe des Pfads zu Ihren Daten in Amazon S3 verwenden Sie die LOCATION-Eigenschaft, wie im folgenden Beispiel gezeigt:



CREATE EXTERNAL TABLE 'test_table'(
...
)
ROW FORMAT ...
STORED AS INPUTFORMAT ...
OUTPUTFORMAT ...
LOCATION 's3://bucketname/folder/'

Weitere Informationen finden Sie unter Tabellenposition in Amazon S3.

Erstellen Sie eine Tabelle aus Abfrageergebnissen (CTAS) aus einem externen S3-Bucket

Wenn Sie ein Asset abonnieren, ist der Zugriff auf die zugrunde liegenden Daten schreibgeschützt. Sie können Amazon Athena verwenden, um eine Kopie der Tabelle zu erstellen. In Amazon Athena erstellt A CREATE TABLE AS SELECT (CTAS) Query eine neue Tabelle in Amazon Athena aus den Ergebnissen einer SELECT Anweisung aus einer anderen Abfrage. Informationen zur CTAS-Syntax finden Sie unter CREATE TABLE AS.

Das folgende Beispiel erstellt eine Tabelle durch Kopieren aller Spalten aus einer Tabelle:



CREATE TABLE new_table AS
SELECT *
FROM old_table;

In der folgenden Variante des gleichen Beispiels enthält Ihre SELECT-Anweisung auch eine WHERE-Klausel. In diesem Fall wählt die Abfrage nur die Zeilen aus der Tabelle aus, die die WHERE-Klausel erfüllen:



CREATE TABLE new_table AS
SELECT *
FROM old_table WHERE condition;

Das folgende Beispiel erstellt eine neue Abfrage, die auf einer Reihe von Spalten aus einer anderen Tabelle ausgeführt wird:



CREATE TABLE new_table AS
SELECT column_1, column_2, ... column_n
FROM old_table;

Diese Variation des gleichen Beispiels erstellt eine neue Tabelle aus bestimmten Spalten aus mehreren Tabellen:



CREATE TABLE new_table AS
SELECT column_1, column_2, ... column_n
FROM old_table_1, old_table_2, ... old_table_n;

Diese neu erstellten Tabellen sind jetzt Teil der AWS Glue Datenbank Ihrer Projekte und können für andere auffindbar gemacht und mit anderen DataZone Amazon-Projekten geteilt werden, indem Sie die Daten als Asset im DataZone Amazon-Katalog veröffentlichen.

Daten mit Amazon Redshift abfragen

Öffnen Sie im DataZone Amazon-Datenportal eine Umgebung, die den Data Warehouse-Blueprint verwendet. Wählen Sie den Amazon Redshift Redshift-Link im rechten Bereich auf der Umgebungsseite. Dadurch wird ein Bestätigungsdialogfeld mit den erforderlichen Details geöffnet, die Ihnen helfen, eine Verbindung zum Amazon Redshift-Cluster oder zur Amazon Redshift Serverless-Arbeitsgruppe Ihrer Umgebung im Amazon Redshift Query Editor v2.0 herzustellen. Sobald Sie die erforderlichen Details für den Verbindungsaufbau identifiziert haben, klicken Sie auf die Schaltfläche Amazon Redshift öffnen. Dadurch wird der Amazon Redshift Redshift-Abfrage-Editor v2.0 in einer neuen Registerkarte im Browser geöffnet, wobei temporäre Anmeldeinformationen der DataZone Amazon-Umgebung verwendet werden.

Führen Sie im Abfrage-Editor die folgenden Schritte aus, je nachdem, ob Ihre Umgebung eine Amazon Redshift Serverless-Arbeitsgruppe oder einen Amazon Redshift Redshift-Cluster verwendet.

Für eine serverlose Amazon Redshift Redshift-Arbeitsgruppe

Identifizieren Sie im Abfrage-Editor die Amazon Redshift Serverless-Arbeitsgruppe Ihrer DataZone Amazon-Umgebung, klicken Sie mit der rechten Maustaste darauf und wählen Sie Verbindung erstellen.
Wählen Sie Federated User für die Authentifizierung aus.
Geben Sie den Namen der Datenbank der DataZone Amazon-Umgebung an.
Wählen Sie Create Connection (Verbindung erstellen) aus.

Für einen Amazon Redshift Redshift-Cluster:

Identifizieren Sie im Abfrage-Editor den Amazon Redshift-Cluster Ihrer DataZone Amazon-Umgebung, klicken Sie mit der rechten Maustaste darauf und wählen Sie Verbindung erstellen.
Wählen Sie Temporäre Anmeldeinformationen mit Ihrer IAM-Identität für die Authentifizierung aus.
Wenn die oben genannte Authentifizierungsmethode nicht verfügbar ist, öffnen Sie die Kontoeinstellungen, indem Sie auf das Zahnrad in der unteren linken Ecke klicken, mit IAM-Anmeldeinformationen authentifizieren wählen und speichern. Dies ist eine one-time-only Einstellung.
Geben Sie den Namen der Datenbank der DataZone Amazon-Umgebung an, um die Verbindung herzustellen.
Wählen Sie Create Connection (Verbindung erstellen) aus.

Jetzt können Sie mit der Abfrage der Tabellen und Ansichten innerhalb des Amazon Redshift-Clusters oder der Amazon Redshift Serverless-Arbeitsgruppe beginnen, die für Ihre Amazon-Umgebung konfiguriert sind. DataZone

Alle Amazon Redshift-Tabellen oder -Ansichten, die Sie abonniert haben, sind mit dem Amazon Redshift Redshift-Cluster oder der Amazon Redshift Serverless-Arbeitsgruppe verknüpft, die für die Umgebung konfiguriert ist. Sie können die Tabellen und Ansichten abonnieren sowie alle neuen Tabellen und Ansichten veröffentlichen, die Sie im Cluster oder in der Datenbank Ihrer Umgebung erstellen.

Nehmen wir zum Beispiel ein Szenario, in dem eine Umgebung mit einem Amazon Redshift Redshift-Cluster verknüpft ist, der in diesem Cluster aufgerufen wird, redshift-cluster-1 und einer Datenbank, die dev in diesem Cluster aufgerufen wird. Mithilfe des DataZone Amazon-Datenportals können Sie die Tabellen und Ansichten abfragen, die zu Ihrer Umgebung hinzugefügt wurden. Im Analytics tools Bereich auf der rechten Seite des Datenportals können Sie den Amazon Redshift Redshift-Link für diese Umgebung auswählen, wodurch der Abfrage-Editor geöffnet wird. Sie können dann mit der rechten Maustaste auf den redshift-cluster-1 Cluster klicken und mithilfe temporärer Anmeldeinformationen unter Verwendung Ihrer IAM-Identität eine Verbindung herstellen. Sobald die Verbindung hergestellt ist, können Sie in der Dev-Datenbank alle Tabellen und Ansichten sehen, auf die Ihre Umgebung Zugriff hat.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Gewähren Sie genehmigten Abonnements Zugriff auf nicht verwaltete Ressourcen

Regeln zur Durchsetzung von Metadaten für Abonnementanfragen