Archivierte S3-Objekte mit der Standard-Speicherklasse lesen

Verwenden von AWS Glue

Die von MySQL nach Amazon S3 ausgelagerten Daten behalten die gleiche strukturelle Starrheit und Konsistenz bei, die für ein relationales Datenbankmanagementsystem (RDBMS) typisch sind.

AWS Glue Crawler durchsucht S3-Objekte, leitet die Datentypen ab und erstellt Tabellenmetadaten als externe Tabellen-DDL. Wenn Sie den Crawler-Job konfigurieren, verwenden Sie Amazon S3 als Quelle und geben Sie den S3-Präfixspeicherort an, an dem alle Datendateien erstellt werden. Nehmen Sie in der Konfiguration Folgendes auf:

Ausführungsoptionen für Crawler
Optionale Präferenz für das Tabellenpräfix
Zieldatenbank für die Erstellung der Tabelle
IAM-Rollen mit den erforderlichen Berechtigungen

Nachdem Sie den Job aufgerufen haben, durchsucht er die Daten, um das Schema abzuleiten und es im AWS Glue-Datenkatalog als AWS Glue Glue-Tabellen beizubehalten. AWS Glue Glue-Tabellen sind im Wesentlichen externe Tabellen, die mit SQL-Anweisungen wie eine normale Datenbanktabelle mithilfe von Analysediensten wie Amazon Athena, Amazon Redshift Spectrum und Apache Hive auf Amazon EMR abgefragt werden können. Weitere Informationen zum Crawler finden Sie in der AWS Glue Glue-Dokumentation.

Bei CSV-Dateien mit einer angegebenen Spaltenüberschrift geben die resultierenden Tabellenspaltennamen dieselben Feldnamen wieder. Der Datentyp wird auf der Grundlage der Werte im Datenobjekt abgeleitet.

Bei Parquet-Dateien wird das Schema in den Daten selbst beibehalten, und die resultierende Tabelle enthält dieselben Feldnamen und denselben Datentyp.

Alternativ können Sie eine DDL manuell in Athena ausführen, um die Tabellendefinition mit den erforderlichen Spaltennamen und dem Datentyp zu erstellen. Dadurch wird die Tabellendefinition innerhalb von Data Catalog erstellt. Weitere Informationen zum Erstellen von Athena-Tabellen finden Sie in der Amazon Athena Athena-Dokumentation.

Hinweis: Wenn die Kopfzeile in der CSV-Datei fehlt, erstellt der Crawler den Feldnamen als generisch c_0, c_1, c_2,...

Amazon S3 Select verwenden

Sie können Amazon S3 Select verwenden, um die S3-Objekte mithilfe von SQL-Ausdrücken programmgesteuert zu lesen. Der API-Vorgang kann mithilfe des AWS-CLI-Befehls select-object-content oder mithilfe eines SDK wie Boto3 aufgerufen und der Vorgang von Python aus aufgerufen werden. select_object_content

Die API-Operationen unterstützen SQL-Anweisungen als Parameter und können nur Dateien vom Typ JSON und Parquet lesen. Die Ausgaben können als Ausgabedateien umgeleitet werden.

Diese Operationen werden für jedes S3-Objekt aufgerufen. Führen Sie die Operationen bei mehreren Dateien rekursiv aus.

Weitere Informationen zur Ausführung der Operationen mithilfe der AWS-CLI finden Sie in der AWS-CLI-Dokumentation. Weitere Informationen zum Ausführen von S3 Select mit dem Python-SDK Boto3 finden Sie in der Boto3-Dokumentation.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Zugreifen auf archivierte Daten

S3 Glacier-Speicherklassen