Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wann sollte ich Athena verwenden?
Abfrageservices wie Amazon Athena, Data Warehouses wie Amazon Redshift und hochentwickelte Datenverarbeitungs-Frameworks wie Amazon EMR erfüllen alle unterschiedliche Anforderungen und Anwendungsfälle. Die folgende Anleitung kann Ihnen helfen, einen oder mehrere Services basierend auf Ihren Anforderungen auszuwählen.
Amazon Athena
Mit Athena können Sie in Amazon S3 gespeicherte unstrukturierte, semistrukturierte und strukturierte Daten analysieren. Beispiele hierfür sind CSV und JSON oder spaltenbasierte Datenformate wie Apache Parquet und Apache ORC. Mit Athena lassen sich Ad-hoc-Abfragen über ANSI SQL ausführen; dabei müssen die Daten weder aggregiert noch in Athena geladen werden.
Athena lässt sich QuickSight für eine einfache Datenvisualisierung in Amazon integrieren. Sie können mit Athena Berichte generieren oder Daten mit Business-Intelligence-Tools oder SQL-Clients analysieren, die eine Verbindung über einen JDBC- oder ODBC-Treiber herstellen. Weitere Informationen finden Sie unter Was ist Amazon QuickSight im QuickSight Amazon-Benutzerhandbuch undStellen Sie mit Treibern eine Connect zu Amazon Athena ODBC her JDBC.
Athena ist in die integriert AWS Glue Data Catalog, die einen persistenten Metadatenspeicher für Ihre Daten in Amazon S3 bietet. Auf diese Weise können Sie Tabellen erstellen und Daten in Athena auf der Grundlage eines zentralen Metadatenspeichers abfragen, der in Ihrem gesamten Amazon Web Services Services-Konto verfügbar ist und in die ETL- und Datenerkennungsfunktionen von AWS Glue integriert ist. Weitere Informationen finden Sie unter Verwenden Sie AWS Glue Data Catalog , um eine Verbindung zu Ihren Daten herzustellen Was ist AWS Glue? im Entwicklerhandbuch für AWS Glue .
Mit Amazon Athena können Sie ganz einfach interaktive Abfragen zu Daten direkt in Amazon S3 ausführen, ohne Daten formatieren oder Infrastruktur verwalten zu müssen. Zum Beispiel ist Athena nützlich, wenn Sie eine schnelle Abfrage für Webprotokolle ausführen möchten, um ein Leistungsproblem auf Ihrer Website zu beheben. Mit Athena können Sie schnell loslegen: Sie definieren einfach eine Tabelle für Ihre Daten und fragen mit Standard-SQL ab.
Sie sollten Amazon Athena verwenden, wenn Sie interaktive Ad-hoc-SQL-Abfragen für Daten auf Amazon S3 ausführen möchten, ohne eine Infrastruktur oder ein Cluster verwalten zu müssen. Amazon Athena bietet die einfachste Möglichkeit, Ad-hoc-Abfragen für Daten in Amazon S3 auszuführen, ohne dass Server eingerichtet oder verwaltet werden müssen.
Eine Liste der Funktionen AWS-Services , die Athena nutzt oder in die Athena integriert, finden Sie unter. AWS-Service Integrationen mit Athena
SageMaker Einheitliches Studio
Amazon SageMaker Unified Studio macht es einfach, mit Amazon Athena und Amazon Redshift zu arbeiten, um SQL-Abfragen für SageMaker Lakehouse-Daten auszuführen. Mit Unified Studio können Sie SQL-Abfragen entwickeln, mit Abfrageergebnissen arbeiten und über eine integrierte Notebook-Umgebung mit Ihrem Team zusammenarbeiten. Sie können Amazon Q Generative SQL auch verwenden, um SQL-Code aus natürlicher Spracheingabe zu generieren. Weitere Informationen finden Sie unter SQL Analytics im SageMaker Unified Studio-Benutzerhandbuch.
Amazon EMR
Mit Amazon EMR können Sie ganz einfach und günstig hochverteilte Verarbeitungs-Frameworks wie Hadoop, Spark und Presto im Vergleich zu On-Premises-Bereitstellungen ausführen. Amazon EMR ist flexibel – Sie können benutzerdefinierte Anwendungen und Code ausführen und spezifische Datenverarbeitungs-, Speicher-, Speicherplatz- und Anwendungsparameter definieren, um Ihre Analyseanforderungen zu optimieren.
Neben der Ausführung von SQL-Abfragen kann Amazon EMR eine Vielzahl von Datenverarbeitungsaufgaben zur Aufskalierung für Anwendungen wie Machine Learning, Graph-Analytik, Datentransformation, Streaming-Daten und praktisch alles, was Sie programmieren können, ausführen. Sie sollten Amazon EMR verwenden, wenn Sie benutzerdefinierten Code verwenden, um extrem große Datensätze mit den neuesten Big-Data-Verarbeitungs-Frameworks wie Spark, Hadoop, Presto oder Hbase zu verarbeiten und zu analysieren. Amazon EMR gibt Ihnen die volle Kontrolle über die Konfiguration Ihrer Cluster und die darauf installierte Software.
Sie können Amazon Athena zum Abfragen von Daten verwenden, die Sie mit Amazon EMR verarbeiten. Amazon Athena unterstützt viele der gleichen Datenformate wie Amazon EMR. Athenas Datenkatalog ist kompatibel mit Hive-Metastore. Wenn Sie EMR verwenden und bereits über einen Hive-Metastore verfügen, können Sie Ihre DDL-Anweisungen bei Amazon Athena ausführen und Ihre Daten sofort abfragen, ohne Ihre Amazon-EMR-Aufträge zu beeinträchtigen.
Amazon Redshift
Ein Data Warehouse wie Amazon Redshift ist die beste Wahl, wenn Sie Daten aus vielen verschiedenen Quellen – wie Lagersystemen, Finanzsystemen und Einzelhandelsverkaufssystemen – in einem gemeinsamen Format zusammenfassen und für lange Zeiträume speichern müssen. Wenn Sie aus historischen Daten umfangreiche Geschäftsberichte erstellen möchten, ist ein Data Warehouse wie Amazon Redshift die beste Wahl. Die Abfrage-Engine in Amazon Redshift wurde optimiert, um bei der Ausführung komplexer Abfragen, die eine große Anzahl sehr großer Datenbanktabellen verbinden, besonders gut zu funktionieren. Wenn Sie Abfragen für hochstrukturierte Daten mit vielen Joins in vielen sehr großen Tabellen ausführen müssen, entscheiden Sie sich für Amazon Redshift.
Weitere Informationen darüber, wann Sie Athena verwenden sollten, finden Sie unter den folgenden Ressourcen:
-
Entscheidungsleitfaden für Analyseservices in AWS im
im Ressourcen-Center für die ersten Schritte -
Wann sollte Athena im Vergleich zu anderen Big-Data-Diensten in Amazon Athena verwendet
werden? FAQs