Einen SerDe für Ihre Daten wählen - Amazon Athena

Einen SerDe für Ihre Daten wählen

Folgende Tabelle enthält die Datenformate, die in Athena unterstützt werden, sowie die entsprechenden SerDe-Bibliotheken.

Unterstützte Formate für Daten und SerDes
Data format (Datenformat) Beschreibung In Athena unterstützte SerDe-Typen
Amazon Ion Amazon Ion ist ein reich typisiertes, selbstbeschreibendes Datenformat, das eine Obermenge von JSON darstellt, das von Amazon entwickelt und Open Source entwickelt wurde. Verwenden Sie die Amazon Ion Hive SerDe.

Apache Avro

Ein Format zum Speichern von Daten in Hadoop, bei dem JSON-basierte Schemas zum Erfassen von Werten verwendet werden.

Verwenden Sie Avro SerDe.

Apache Parquet

Ein Format für die spaltenbasierte Speicherung von Daten in Hadoop.

Verwenden Sie die Parquet SerDe und SNAPPY-Komprimierung.

Apache WebServer-Protokolle

Ein Format zum Speichern von Protokollen in Apache WebServer.

Verwenden Sie die Grok SerDe oder Regex SerDe.

CloudTrail-Protokolle

Ein Format zum Speichern von Protokollen in CloudTrail.

CSV (Comma Separated Values, durch Komma getrennte Werte)

Für Daten im CSV-Format stellt jede Zeile einen Datensatz dar und jeder Datensatz besteht aus mehreren durch Kommata getrennten Feldern.

Benutzerdefiniert, durch Trennzeichen getrennt

Bei Daten in diesem Format stellt jede Zeile einen Datensatz dar. Die Datensätze sind durch benutzerdefinierte aus einem Zeichen bestehende Trennzeichen getrennt.

Verwenden Sie die Lazy Simple SerDe für CSV- und TSV-Dateien sowie für benutzerdefinierte, durch Trennzeichen getrennte Dateien und geben Sie ein einzelnes benutzerdefiniertes Trennzeichen an.

JSON (JavaScript Object Notation)

Bei JSON-Daten stellt jede Zeile einen Datensatz dar und jeder Datensatz besteht aus Attribut/Werte-Paaren und Arrays, die durch Komma getrennt sind.

Logstash-Protokolle

Ein Format zum Speichern von Protokollen in Logstash.

Verwenden Sie Grok SerDe.

ORC (Optimized Row Columnar)

Ein Format für die optimierte spaltenbasierte Speicherung von Hive-Daten.

Verwenden Sie die ORC SerDe und ZLIB-Komprimierung.

TSV (Tab-Separated Values, tabulatorgetrennte Werte)

Bei Daten im TSV-Format stellt jede Zeile einen Datensatz dar und jeder Datensatz besteht aus mehreren durch Tabulatoren getrennten Feldern.

Verwenden Sie die Lazy Simple SerDe für CSV- und TSV-Dateien sowie für benutzerdefinierte, durch Trennzeichen getrennte Dateien und geben Sie das Trennzeichen als FIELDS TERMINATED BY '\t' an.