Einen SerDe für Ihre Daten wählen
Folgende Tabelle enthält die Datenformate, die in Athena unterstützt werden, sowie die entsprechenden SerDe-Bibliotheken.
| Data format (Datenformat) | Beschreibung | In Athena unterstützte SerDe-Typen |
|---|---|---|
| Amazon Ion | Amazon Ion ist ein reich typisiertes, selbstbeschreibendes Datenformat, das eine Obermenge von JSON darstellt, das von Amazon entwickelt und Open Source entwickelt wurde. | Verwenden Sie die Amazon Ion Hive SerDe. |
|
Apache Avro |
Ein Format zum Speichern von Daten in Hadoop, bei dem JSON-basierte Schemas zum Erfassen von Werten verwendet werden. |
Verwenden Sie Avro SerDe. |
|
Apache Parquet |
Ein Format für die spaltenbasierte Speicherung von Daten in Hadoop. |
Verwenden Sie die Parquet SerDe und SNAPPY-Komprimierung. |
|
Apache WebServer-Protokolle |
Ein Format zum Speichern von Protokollen in Apache WebServer. |
Verwenden Sie die Grok SerDe oder Regex SerDe. |
|
CloudTrail-Protokolle |
Ein Format zum Speichern von Protokollen in CloudTrail. |
|
|
CSV (Comma Separated Values, durch Komma getrennte Werte) |
Für Daten im CSV-Format stellt jede Zeile einen Datensatz dar und jeder Datensatz besteht aus mehreren durch Kommata getrennten Feldern. |
|
|
Benutzerdefiniert, durch Trennzeichen getrennt |
Bei Daten in diesem Format stellt jede Zeile einen Datensatz dar. Die Datensätze sind durch benutzerdefinierte aus einem Zeichen bestehende Trennzeichen getrennt. |
Verwenden Sie die Lazy Simple SerDe für CSV- und TSV-Dateien sowie für benutzerdefinierte, durch Trennzeichen getrennte Dateien und geben Sie ein einzelnes benutzerdefiniertes Trennzeichen an. |
|
JSON (JavaScript Object Notation) |
Bei JSON-Daten stellt jede Zeile einen Datensatz dar und jeder Datensatz besteht aus Attribut/Werte-Paaren und Arrays, die durch Komma getrennt sind. |
|
|
Logstash-Protokolle |
Ein Format zum Speichern von Protokollen in Logstash. |
Verwenden Sie Grok SerDe. |
|
ORC (Optimized Row Columnar) |
Ein Format für die optimierte spaltenbasierte Speicherung von Hive-Daten. |
Verwenden Sie die ORC SerDe und ZLIB-Komprimierung. |
|
TSV (Tab-Separated Values, tabulatorgetrennte Werte) |
Bei Daten im TSV-Format stellt jede Zeile einen Datensatz dar und jeder Datensatz besteht aus mehreren durch Tabulatoren getrennten Feldern. |
Verwenden Sie die Lazy Simple SerDe für CSV- und TSV-Dateien sowie für benutzerdefinierte, durch Trennzeichen getrennte Dateien und geben Sie das Trennzeichen als |