Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Direktes Abfragen von Amazon S3 S3-Daten im Service OpenSearch
Dieser Abschnitt führt Sie durch den Prozess der Erstellung und Konfiguration einer Datenquellenintegration in Amazon OpenSearch Service, sodass Sie Ihre in Amazon S3 gespeicherten Daten effizient abfragen und analysieren können.
Auf den folgenden Seiten erfahren Sie, wie Sie eine Amazon S3 S3-Datenquelle für direkte Abfragen einrichten, sich mit den erforderlichen Voraussetzungen vertraut machen und die step-by-step Verfahren sowohl mit der als auch mit der AWS-Managementkonsole OpenSearch Service-API befolgen. Außerdem werden wichtige nächste Schritte behandelt, darunter die Zuordnung von AWS Glue Data Catalog Rollen und die Konfiguration der Zugriffskontrollen in OpenSearch Dashboards.
Themen
Preisgestaltung
Amazon OpenSearch Service bietet OpenSearch Compute Unit (OCU) -Preise für Amazon S3 S3-Direktabfragen an. Wenn Sie direkte Abfragen ausführen, fallen Gebühren OCUs pro Stunde an, die auf Ihrer Rechnung als DirectQuery OCU-Nutzungsart aufgeführt sind. Für die Datenspeicherung fallen außerdem separate Gebühren von Amazon S3 an.
Es gibt zwei Arten von direkten Abfragen: interaktive Abfragen und Abfragen mit indizierter Ansicht.
-
Interaktive Abfragen werden verwendet, um die Datenauswahl zu füllen und Analysen Ihrer Daten in Amazon S3 durchzuführen. Wenn Sie eine neue Abfrage von Discover aus ausführen, startet OpenSearch Service eine neue Sitzung, die mindestens drei Minuten dauert. OpenSearch Der Dienst hält diese Sitzung aktiv, um sicherzustellen, dass nachfolgende Abfragen schnell ausgeführt werden.
-
Abfragen mit indizierten Ansichten verwenden Compute, um indizierte Ansichten im OpenSearch Service zu verwalten. Diese Abfragen dauern normalerweise länger, da sie eine unterschiedliche Datenmenge in einen benannten Index aufnehmen. Bei Amazon S3 S3-Datenquellen werden die indizierten Daten in einer Domain gespeichert, die auf einem gekauften Instance-Typ basiert.
Weitere Informationen finden Sie in den Abschnitten Direct Query und Serverless unter Amazon OpenSearch Service Pricing
Einschränkungen
Die folgenden Einschränkungen gelten für direkte Abfragen in Amazon S3:
-
Direct Query für S3 ist nur für OpenSearch Service-Domains verfügbar, auf denen OpenSearch Version 2.13 oder höher ausgeführt wird, und erfordert Zugriff AWS Glue Data Catalog auf. Bestehende AWS Glue Data Catalog Tabellen müssen mit SQL in OpenSearch Query Workbench neu erstellt werden.
-
Bei Direct Query for S3 müssen Sie einen Checkpoint-Bucket auf Amazon S3 angeben. In diesem Bucket wird der Status Ihrer indizierten Ansichten beibehalten, einschließlich der letzten Aktualisierungszeit und der zuletzt aufgenommenen Daten.
-
Ihre OpenSearch Domain und AWS Glue Data Catalog müssen sich in derselben befinden. AWS-Konto Ihr S3-Bucket kann sich in einem anderen Konto befinden (erfordert, dass die Bedingung zu Ihrer IAM-Richtlinie hinzugefügt wird), muss sich aber in derselben Domain befinden AWS-Region wie Ihre Domain.
-
OpenSearch Direkte Serviceabfragen mit S3 unterstützen nur Spark-Tabellen, die mit Query Workbench generiert wurden. In AWS Glue Data Catalog oder Athena generierte Tabellen werden vom Spark-Streaming nicht unterstützt, das für die Verwaltung indizierter Ansichten erforderlich ist.
-
OpenSearch Instance-Typen haben Netzwerknutzlastbeschränkungen von entweder 10 MiB oder 100 MiB, je nachdem, welchen Instance-Typ Sie wählen.
-
Einige Datentypen werden nicht unterstützt. Die unterstützten Datentypen sind auf Parquet, CSV und JSON beschränkt.
-
Wenn sich die Struktur Ihrer Daten im Laufe der Zeit ändert, müssen Sie Ihre indizierten Ansichten oder out-of-the-box Integrationen aktualisieren, um den Änderungen der Datenstruktur Rechnung zu tragen.
-
AWS CloudFormation Vorlagen werden noch nicht unterstützt.
-
OpenSearch SQL- und OpenSearch PPL-Anweisungen haben bei der Arbeit mit OpenSearch Indizes andere Einschränkungen als bei der Verwendung von Direktabfragen. Direct Query unterstützt erweiterte Befehle wie JOINs Unterabfragen und Suchvorgänge, während diese Befehle in OpenSearch Indizes nur begrenzt oder gar nicht unterstützt werden. Weitere Informationen finden Sie unter Unterstützte SQL- und PPL-Befehle.
Empfehlungen
Bei der Verwendung von Direktabfragen in Amazon S3 empfehlen wir Folgendes:
-
Nehmen Sie Daten mithilfe der Partitionsformate Jahr, Monat, Tag und Stunde in Amazon S3 auf, um Abfragen zu beschleunigen.
-
Wenn Sie Skipping-Indizes erstellen, verwenden Sie Bloom-Filter für Felder mit hoher Kardinalität und min/max Indizes für Felder mit großen Wertebereichen. Für Felder mit hoher Kardinalität sollten Sie erwägen, einen wertebasierten Ansatz zu verwenden, um die Abfrageeffizienz zu verbessern.
-
Verwenden Sie Index State Management, um Speicherplatz für materialisierte Ansichten und umfassende Indizes bereitzustellen.
-
Verwenden Sie die
COALESCE SQLFunktion, um fehlende Spalten zu behandeln und sicherzustellen, dass Ergebnisse zurückgegeben werden. -
Verwenden Sie Grenzwerte für Ihre Abfragen, um sicherzustellen, dass Sie nicht zu viele Daten zurückholen.
Kontingente
Jedes Mal, wenn Sie eine Abfrage an eine Amazon S3 S3-Datenquelle starten, öffnet OpenSearch Service eine Sitzung und hält sie mindestens drei Minuten lang aufrecht. Dadurch wird die Abfragelatenz reduziert, da die Startzeit der Sitzung bei nachfolgenden Abfragen entfällt.
| Description | Maximum | Kann überschrieben werden |
|---|---|---|
| Verbindungen pro Domain | 10 | Ja |
| Datenquellen pro Domain | 20 | Ja |
| Indizes pro Domain | 5 | Ja |
| Gleichzeitige Sitzungen pro Datenquelle | 10 | Ja |
| Maximale OCU pro Abfrage | 60 | Ja |
| Maximale Ausführungszeit für Abfragen (Minuten) | 30 | Ja |
| Maximum OCUs pro Beschleunigung | 20 | Ja |
| Maximaler kurzlebiger Speicher | 20 | Ja |
Unterstützt AWS-Regionen
Folgendes AWS-Regionen wird für direkte Abfragen in Amazon S3 unterstützt:
-
Asien-Pazifik (Hongkong)
-
Asien-Pazifik (Mumbai)
-
Asia Pacific (Seoul)
-
Asien-Pazifik (Singapur)
-
Asien-Pazifik (Sydney)
-
Asien-Pazifik (Tokio)
-
Canada (Central)
-
Europe (Frankfurt)
-
Europa (Irland)
-
Europa (Stockholm)
-
USA Ost (Nord-Virginia)
-
USA Ost (Ohio)
-
USA West (Oregon)