Tabellen für ETL-Aufträge erstellen - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Tabellen für ETL-Aufträge erstellen

Sie können Athena verwenden, um Tabellen zu erstellen, die AWS Glue für ETL-Jobs verwendet werden kann. AWS Glue-Jobs führen ETL-Operationen aus. Ein AWS Glue-Auftrag führt ein Skript aus, mit dem Daten aus Quellen extrahiert, umgewandelt und in das Ziel hochgeladen werden. Weitere Informationen finden Sie unter Autorisieren von Aufträgen in AWS Glue im AWS Glue-Entwicklerhandbuch.

Tabellen mit Athena für AWS Glue-ETL-Aufträge erstellen

Innerhalb von Athena erstellte Tabellen benötigen eine Tabelleneigenschaft namens classification, über die das Format der Daten identifiziert wird. Damit kann AWS Glue die Tabellen für ETL-Aufträge verwenden. Die Klassifizierungswerte können avro, csv, json, orc, parquet oder xml sein. Es folgt ein Beispiel für eine CREATE TABLE-Anweisung in Athena:

CREATE EXTERNAL TABLE sampleTable ( column1 INT, column2 INT ) STORED AS PARQUET TBLPROPERTIES ( 'classification'='parquet')

Wenn die classification-Tabelleneigenschaft beim Erstellen der Tabelle nicht hinzugefügt wurde, können Sie diese mithilfe der AWS Glue-Konsole hinzufügen.

Hinzufügen der Klassifizierungseigenschaft mit der AWS Glue-Konsole
  1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/.

  2. Wählen Sie im Navigationsbereich der Konsole Tables (Tabellen) aus.

  3. Wählen Sie den Link für die Tabelle, die Sie bearbeiten möchten. Wählen Sie dann Action (Aktion), Edit table (Tabelle bearbeiten).

  4. Scrollen Sie nach unten zum Abschnitt Table properties (Tabelleneigenschaften).

  5. Wählen Sie Hinzufügen aus.

  6. Geben Sie für Key (Schlüssel) classification ein.

  7. Für Value (Wert), geben Sie einen Datentyp ein (z. B. json).

  8. Wählen Sie Speichern.

    Im Abschnitt Table details (Angaben zur Tabelle) erscheint der von Ihnen eingegebene Datentyp im Feld Classification (Klassifizierung) der Tabelle.

Weitere Informationen finden Sie unter Working with Tables (Arbeiten mit Tabellen) im AWS Glue-Entwicklerhandbuch.

ETL-Aufträgen zur Optimierung der Abfrageleistung verwenden

AWS GlueMithilfe von -Aufträgen können Sie Daten zur Optimierung der Abfrageleistung in Athena in ein anderes Format umwandeln. Datenformate wirken sich erheblich auf die Abfrageleistung und Abfragekosten in Athena aus.

AWS Glue unterstützt das Schreiben in die Datenformate Parquet und ORC. Sie können diese Feature verwenden, um Ihre Daten für die Verwendung in Athena zu transformieren. Weitere Informationen zur Verwendung von Parquet und ORC und anderen Möglichkeiten zur Leistungsverbesserung finden Sie unter Top 10 der Leistungsoptimierungstipps für Amazon Athena.

Anmerkung

Um möglichst zu vermeiden, dass Athena die Datentypen SMALLINT und TINYINT, die von AWS Glue-ETL-Aufträgen generiert werden, nicht lesen kann, konvertieren Sie SMALLINT und TINYINT zu INT wenn Sie einen ETL-Auftrag erstellen der Daten yu ORC konvertiert.

AWS Glue-Aufträge für ETL automatisieren

Sie können AWS Glue-ETL-Aufträge so konfigurieren, dass sie automatisch ausgeführt werden, wenn sie ausgelöst werden. Dieses Feature ist ideal, wenn Daten von außerhalb von AWS in einem Format, das ansonsten für Abfragen in Athena nicht optimal ist, in einen Amazon-S3-Bucket gespeichert werden. Weitere Informationen finden Sie unter Auslösen von AWS Glue-Aufträgen im AWS Glue-Entwicklerhandbuch.