Abfragen konfigurierter Tabellen mit dem SQL-Code-Editor - AWS Clean Rooms

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Abfragen konfigurierter Tabellen mit dem SQL-Code-Editor

Als Mitglied, das Abfragen durchführen kann, können Sie eine Abfrage manuell erstellen, indem Sie SQL-Code in den SQL-Code-Editor schreiben. Der SQL-Code-Editor befindet sich in der AWS Clean Rooms Konsole auf der Registerkarte Analyse im Abschnitt Analyse.

Der SQL-Code-Editor wird standardmäßig angezeigt. Wenn Sie den Analysis Builder zum Erstellen von Abfragen verwenden möchten, finden Sie weitere Informationen unterAbfragen mit dem Analysis Builder.

Wichtig

Wenn Sie mit dem Schreiben einer SQL-Abfrage im Code-Editor beginnen und dann die Analysis Builder-Benutzeroberfläche einschalten, wird Ihre Abfrage nicht gespeichert.

AWS Clean Rooms unterstützt viele SQL-Befehle, Funktionen und Bedingungen. Weitere Informationen finden Sie in der AWS Clean Rooms SQL-Referenz.

Tipp

Wenn während der Ausführung einer Abfrage eine geplante Wartung stattfindet, wird die Abfrage beendet und ein Rollback durchgeführt. Sie müssen die Abfrage neu starten.

Um konfigurierte Tabellen mit dem SQL-Code-Editor abzufragen
  1. Melden Sie sich bei https://console.aws.amazon.com/cleanrooms an AWS-Managementkonsole und öffnen Sie die AWS Clean Rooms Konsole.

  2. Wählen Sie im linken Navigationsbereich Collaborations aus.

  3. Wählen Sie die Kollaboration aus, für die der Status Ihrer Mitgliederfähigkeiten den Status Abfragen ausführen lautet.

  4. Sehen Sie sich auf der Registerkarte Analyse unter Tabellen die Liste der Tabellen und den zugehörigen Analyseregeltyp an (Aggregationsanalyseregel, Listenanalyseregel oder Benutzerdefinierte Analyseregel).

    Anmerkung

    Wenn Sie die erwarteten Tabellen in der Liste nicht sehen, kann das folgende Gründe haben:

  5. (Optional) Um das Schema und die Analyseregelsteuerelemente der Tabelle anzuzeigen, erweitern Sie die Tabelle, indem Sie das Pluszeichen (+) auswählen.

  6. Wählen Sie im Abschnitt Analyse für den Analysemodus die Option SQL-Code schreiben aus.

    Anmerkung

    Im Abschnitt Analyse wird nur angezeigt, ob das Mitglied, das Ergebnisse erhalten kann, und das Mitglied, das für die Bezahlung der Abfrage-Rechenkosten verantwortlich ist, der Kollaboration als aktives Mitglied beigetreten sind.

  7. Erstellen Sie die Abfrage, indem Sie die Abfrage in den SQL-Code-Editor eingeben.

    Weitere Informationen zu unterstützten SQL-Befehlen und -Funktionen finden Sie in der AWS Clean Rooms SQL-Referenz.

    Sie können auch die folgenden Optionen verwenden, um Ihre Abfrage zu erstellen.

    Use an example query

    Um eine Beispielabfrage zu verwenden

    1. Wählen Sie die drei vertikalen Punkte neben der Tabelle aus.

    2. Wählen Sie unter In Editor einfügen die Option Beispielabfrage aus.

      Anmerkung

      Wenn Sie eine Beispielabfrage einfügen, wird sie an die Abfrage angehängt, die sich bereits im Editor befindet.

      Das Abfragebeispiel wird angezeigt. Alle unter Tabellen aufgeführten Tabellen sind in der Abfrage enthalten.

    3. Bearbeiten Sie die Platzhalterwerte in der Abfrage.

    Insert column names or functions

    Um einen Spaltennamen oder eine Funktion einzufügen

    1. Wählen Sie die drei vertikalen Punkte neben einer Spalte aus.

    2. Wählen Sie unter In Editor einfügen die Option Spaltenname aus.

    3. Um eine Funktion, die für eine Spalte zulässig ist, manuell einzufügen,

      1. Wählen Sie die drei vertikalen Punkte neben einer Spalte aus.

      2. Wählen Sie In Editor einfügen aus.

      3. Wählen Sie den Namen der zulässigen Funktion aus (z. B. INNER JOINSUM,SUM DISTINCT, oderCOUNT).

    4. Drücken Sie Strg + Leertaste, um die Tabellenschemas im Code-Editor anzuzeigen.

      Anmerkung

      Mitglieder, die Abfragen durchführen können, können die Partitionsspalten in jeder konfigurierten Tabellenverknüpfung anzeigen und verwenden. Stellen Sie sicher, dass die Partitionsspalte in der AWS Glue Tabelle, die der konfigurierten Tabelle zugrunde liegt, als Partitionsspalte gekennzeichnet ist.

    5. Bearbeiten Sie die Platzhalterwerte in der Abfrage.

  8. (Nur Spark Analytics Engine) Geben Sie den unterstützten Worker-Typ und die Anzahl der Worker an.

    Sie können den Instanztyp und die Anzahl der Instanzen (Worker) auswählen, um Ihre SQL-Abfragen auszuführen.

    Für CR.1X können Sie bis zu 128 Worker oder mindestens 4 Worker auswählen.

    Für CR.4X können Sie bis zu 32 Arbeiter oder mindestens 4 Arbeiter auswählen.

    Ermitteln Sie anhand der folgenden Tabelle den Typ und die Anzahl der Mitarbeiter, die Sie für Ihren Anwendungsfall benötigen.

    Worker type (Worker-Typ) vCPU Speicher (GB) Speicher (GB) Number of workers (Anzahl der Worker) Gesamtzahl der Verarbeitungseinheiten für Reinräume (CRPU)
    CR.1X (Standard) 4 30 100 4 8
    128 256
    CR.4X 16 120 400 4 32
    32 256
    Anmerkung

    Verschiedene Arten von Arbeitnehmern und die Anzahl der Arbeitnehmer sind mit Kosten verbunden. Weitere Informationen zu den Preisen finden Sie unter AWS Clean Rooms Preisgestaltung.

  9. Geben Sie unter Ergebnisse senden an an an, wer Ergebnisse erhalten kann.

    Anmerkung

    Um Ergebnisse zu erhalten, muss das Kollaborationsmitglied als Empfänger von Ergebnissen konfiguriert sein und ein aktiver Teilnehmer an der Kollaboration sein (Status: Aktiv)

  10. (Mitglied, das nur Abfragen durchführen kann) Das Kontrollkästchen Verwenden Sie Ihre Standardergebniseinstellungen ist standardmäßig aktiviert. Lassen Sie dieses Kontrollkästchen aktiviert, wenn Sie Ihre Standardergebniseinstellungen beibehalten möchten.

    Wenn Sie andere Ergebniseinstellungen für diese Abfrage angeben möchten, deaktivieren Sie das Kontrollkästchen Verwenden Sie Ihre Standardergebniseinstellungen, und wählen Sie dann Folgendes aus.

    1. Ergebnisformat (CSV oder PARQUET)

    2. Ergebnisdateien (einzeln oder mehrfach)

    3. Ziel der Ergebnisse in Amazon S3

    Jedes Mitglied, das Ergebnisse erhalten kann, kann in Amazon S3 ein anderes Ergebnisformat, andere Ergebnisdateien und ein anderes Ergebnisziel angeben.

  11. (Nur Spark-Analyse-Engine) So geben Sie Spark-Eigenschaften an:

    1. Erweitern Sie Spark-Eigenschaften.

    2. Wählen Sie Spark-Eigenschaften hinzufügen.

    3. Wählen Sie im Dialogfeld „Spark-Eigenschaften“ einen Eigenschaftsnamen aus der Dropdownliste aus und geben Sie einen Wert ein.

    Die folgende Tabelle enthält eine Definition für jede Eigenschaft.

    Weitere Informationen zu Spark-Eigenschaften finden Sie unter Spark-Eigenschaften in der Apache Spark-Dokumentation.

    Eigenschaftenname Description Standardwert

    spark.task.maxFailures

    Steuert, wie oft eine Aufgabe hintereinander fehlschlagen kann, bevor der Job fehlschlägt. Erfordert einen Wert größer oder gleich 1. Die Anzahl der zulässigen Wiederholungen entspricht diesem Wert minus 1. Die Anzahl der Fehlschläge wird zurückgesetzt, wenn ein Versuch erfolgreich ist. Fehler bei verschiedenen Aufgaben summieren sich nicht bis zu diesem Limit.

    4

    spark.sql.files. maxPartitionBytes

    Legt die maximale Anzahl von Byte fest, die beim Lesen aus dateibasierten Quellen wie Parquet, JSON und ORC in eine einzelne Partition gepackt werden sollen.

    128 MB

    spark.hadoop.fs.s3.max versucht es erneut

    Legt die maximale Anzahl von Wiederholungsversuchen für Amazon S3 S3-Dateioperationen fest.

    spark.network.timeout

    Legt das Standard-Timeout für alle Netzwerkinteraktionen fest. Setzt die folgenden Timeout-Einstellungen außer Kraft, wenn sie nicht konfiguriert sind:

    • spark.storage. blockManagerHeartbeatTimeoutMs

    • spark.shuffle.io.ConnectionTimeout

    • spark.rpc.AskTimeout

    • spark.rpc.LookupTimeout

    TBD

    spark.rdd.com/press

    Gibt an, ob serialisierte RDD-Partitionen mit spark.io.compression.codec komprimiert werden sollen. Gilt für StorageLevel .MEMORY_ONLY_SER in Java und Scala oder .MEMORY_ONLY in Python. StorageLevel Reduziert den Speicherplatz, erfordert jedoch zusätzliche CPU-Verarbeitungszeit.

    FALSE

    spark.shuffle.spill.com/press

    Gibt an, ob Shuffle-Spill-Daten mit spark.io.compression.codec komprimiert werden sollen.

    TRUE

    spark.sql.adaptive. advisoryPartitionSizeInBytes

    Legt die Zielgröße in Byte für Shuffle-Partitionen während der adaptiven Optimierung fest, wenn spark.sql.adaptive.enabled den Wert true hat. Steuert die Partitionsgröße beim Zusammenführen kleiner Partitionen oder beim Teilen schiefer Partitionen.

    (Wert von spark.sql.adaptive.shuffle. targetPostShuffleInputSize)

    spark.sql.adaptiv. autoBroadcastJoinSchwellenwert

    Legt die maximale Tabellengröße in Byte für die Übertragung an Worker-Knoten bei Joins fest. Gilt nur im adaptiven Framework. Verwendet denselben Standardwert wie spark.sql. autoBroadcastJoinSchwellenwert. Auf -1 setzen, um die Übertragung zu deaktivieren.

    (Keine)

    spark.sql.adaptive.CoalescePartitions.Enabled

    Gibt an, ob zusammenhängende Shuffle-Partitionen, die auf spark.sql.adaptive basieren, zusammengeführt werden sollen. advisoryPartitionSizeInBytes um die Aufgabengröße zu optimieren. Erfordert, dass spark.sql.adaptive.enabled den Wert true hat.

    TRUE

    spark.sql.adaptive.CoalescePartitions. initialPartitionNum

    Definiert die anfängliche Anzahl von Shuffle-Partitionen vor dem Zusammenführen. Erfordert, dass sowohl spark.sql.adaptive.enabled als auch spark.sql.adaptive.CoalescePartitions.Enabled den Wert true haben. Der Standardwert ist der Wert von spark.sql.shuffle.partitions.

    (Keine)

    spark.sql.adaptive.CoalescePartitions. minPartitionSize

    Legt die Mindestgröße für zusammengeführte Shuffle-Partitionen fest, um zu verhindern, dass Partitionen während der adaptiven Optimierung zu klein werden.

    1 MB

    spark.sql.adaptive.CoalescePartitions.ParallelismFirst

    Gibt an, ob Partitionsgrößen auf der Grundlage der Cluster-Parallelität und nicht auf der Grundlage von spark.sql.adaptive berechnet werden sollen. advisoryPartitionSizeInBytes während der Zusammenführung von Partitionen. Generiert kleinere Partitionsgrößen als die konfigurierte Zielgröße, um die Parallelität zu maximieren. Wir empfehlen, diesen Wert bei stark frequentierten Clustern auf „False“ zu setzen, um die Ressourcennutzung zu verbessern und übermäßig kleine Aufgaben zu vermeiden.

    TRUE

    spark.sql.adaptive.enabled

    Gibt an, ob die adaptive Abfrageausführung aktiviert werden soll, um Abfragepläne während der Abfrageausführung auf der Grundlage genauer Laufzeitstatistiken erneut zu optimieren.

    TRUE

    spark.sql.adaptive. forceOptimizeSkewedBeitreten

    Gibt an, ob die Aktivierung erzwungen werden soll, OptimizeSkewedJoin auch wenn dadurch zusätzlicher Shuffle eingeführt wird.

    FALSE

    spark.sql.adaptive. localShuffleReader. aktiviert

    Gibt an, ob lokale Shuffle-Reader verwendet werden sollen, wenn eine Shuffle-Partitionierung nicht erforderlich ist, z. B. nach der Konvertierung von Sort-Merge-Joins in Broadcast-Hash-Joins. Erfordert, dass spark.sql.adaptive.enabled den Wert true hat.

    TRUE

    spark.sql.adaptive. maxShuffledHashJoinLocalMapThreshold

    Legt die maximale Partitionsgröße in Byte für die Erstellung lokaler Hash-Maps fest. Priorisiert gemischte Hash-Joins gegenüber Sort-Merge-Joins, wenn:

    • Dieser Wert entspricht oder übersteigt spark.sql.adaptive. advisoryPartitionSizeInBytes

    • Alle Partitionsgrößen liegen innerhalb dieser Grenze

    Überschreibt spark.sql.join. preferSortMergeJoin-Einstellung.

    0 Byte

    spark.sql.adaptiv. optimizeSkewsInRebalancePartitions. aktiviert

    Gibt an, ob schiefe Shuffle-Partitionen optimiert werden sollen, indem sie auf der Grundlage von spark.sql.adaptive in kleinere Partitionen aufgeteilt werden. advisoryPartitionSizeInBytes. Erfordert, dass spark.sql.adaptive.enabled wahr ist.

    TRUE

    spark.sql.adaptive. rebalancePartitionsSmallPartitionFactor

    Definiert den Größenschwellenwert für das Zusammenführen von Partitionen beim Teilen. Partitionen, die kleiner sind als dieser Faktor multipliziert mit spark.sql.adaptive. advisoryPartitionSizeInBytes werden zusammengeführt.

    0.2

    spark.sql.Adaptive.SkewJoin.Enabled

    Gibt an, ob Datenverzerrungen in gemischten Verknüpfungen behandelt werden sollen, indem schiefe Partitionen aufgeteilt und optional repliziert werden. Gilt für Sort-Merge- und Shuffled-Hash-Joins. Erfordert, dass spark.sql.adaptive.enabled wahr ist.

    TRUE

    spark.sql.adaptive.SkewJoin. skewedPartitionFactor

    Bestimmt den Größenfaktor, der die Partitionsneigung bestimmt. Eine Partition ist schief, wenn ihre Größe beide Werte überschreitet:

    • Dieser Faktor wird mit der mittleren Partitionsgröße multipliziert

    • Der Wert von spark.sql.adaptive.SkewJoin. skewedPartitionThresholdInBytes

    5

    spark.sql.Adaptive.SkewJoin. skewedPartitionThresholdInBytes

    Legt den Größenschwellenwert in Byte zur Identifizierung schiefer Partitionen fest. Eine Partition ist schief, wenn ihre Größe beide Werte überschreitet:

    • Dieser Schwellenwert

    • Die mittlere Partitionsgröße multipliziert mit spark.sql.adaptive.SkewJoin. skewedPartitionFactor

    Wir empfehlen, diesen Wert größer als spark.sql.adaptive festzulegen. advisoryPartitionSizeInBytes.

    256 MB

    spark.sql. autoBroadcastJoinSchwellenwert

    Legt die maximale Tabellengröße in Byte für die Übertragung an Worker-Knoten bei Joins fest. Auf -1 setzen, um die Übertragung zu deaktivieren.

    10 MB

    spark.sql.BroadcastTimeout

    Steuert den Timeout-Zeitraum in Sekunden für die Broadcast-Operationen bei Broadcast-Joins.

    300 Sekunden

    spark.sql.cbo.enabled

    Gibt an, ob die kostenbasierte Optimierung (CBO) für die Schätzung von Planstatistiken aktiviert werden soll.

    FALSE

    spark.sql.CBO.JoinReorder.DP.Star.Filter

    Gibt an, ob bei der kostenbasierten Join-Aufzählung Heuristiken des Star-Join-Filters angewendet werden sollen.

    FALSE

    spark.sql.CBO.JoinReorder.DP.Threshold

    Legt die maximale Anzahl verbundener Knoten fest, die im dynamischen Programmieralgorithmus zulässig sind.

    12

    spark.sql.CBO.JoinReorder.Enabled

    Gibt an, ob die Neuanordnung von Verknüpfungen bei der kostenbasierten Optimierung (CBO) aktiviert werden soll.

    FALSE

    spark.sql.CBO.PlanStats.Enabled

    Gibt an, ob bei der Generierung logischer Pläne Zeilenanzahlen und Spaltenstatistiken aus dem Katalog abgerufen werden sollen.

    FALSE

    spark.sql.cbo. starSchemaDetection

    Gibt an, ob die Neuanordnung von Verknüpfungen auf der Grundlage der Star-Schemaerkennung aktiviert werden soll.

    FALSE

    spark.sql.CrossJoin.Enabled

    spark.sql.files. maxPartitionNum

    Legt die maximale Zielanzahl von geteilten Dateipartitionen für dateibasierte Quellen (Parquet, JSON und ORC) fest. Skaliert Partitionen neu, wenn die anfängliche Anzahl diesen Wert überschreitet. Dies ist ein empfohlenes Ziel, kein garantiertes Limit.

    (Keine)

    spark.sql.files. maxRecordsPerDatei

    Legt die maximale Anzahl von Datensätzen fest, die in eine einzelne Datei geschrieben werden sollen. Wenn der Wert auf Null oder einen negativen Wert gesetzt ist, gilt kein Limit.

    0

    spark.sql.files. minPartitionNum

    Legt die Mindestanzahl von geteilten Dateipartitionen für dateibasierte Quellen (Parquet, JSON und ORC) fest. Die Standardeinstellung ist spark.sql. leafNodeDefaultParallelität. Dies ist ein empfohlenes Ziel, kein garantiertes Limit.

    (Keine)

    spark.sql. inMemoryColumnarSpeicher. Batchgröße

    Steuert die Batchgröße für das spaltenförmige Caching. Eine Erhöhung der Größe verbessert die Speichernutzung und Komprimierung, erhöht jedoch das Fehlerrisiko out-of-memory.

    10000

    spark.sql. inMemoryColumnarSpeicher. Komprimiert

    Gibt an, ob auf der Grundlage von Datenstatistiken automatisch Komprimierungscodecs für Spalten ausgewählt werden sollen.

    TRUE

    spark.sql. inMemoryColumnarAufbewahrung. enableVectorizedReader

    Gibt an, ob vektorisiertes Lesen für das spaltenförmige Caching aktiviert werden soll.

    TRUE

    spark.sql.legacy. allowHashOnMapType

    Gibt an, ob Hash-Operationen für Map-Datenstrukturen zulässig sind. Diese Legacy-Einstellung gewährleistet die Kompatibilität mit der Map-Typ-Behandlung älterer Spark-Versionen.

    spark.sql.legacy. allowNegativeScaleOfDecimal

    Gibt an, ob negative Skalenwerte in Dezimaltypdefinitionen zulässig sind. Diese ältere Einstellung gewährleistet die Kompatibilität mit älteren Spark-Versionen, die negative Dezimalskalen unterstützten.

    spark.sql.legacy. castComplexTypesToString. aktiviert

    Gibt an, ob veraltetes Verhalten für die Umwandlung komplexer Typen in Zeichenketten aktiviert werden soll. Behält die Kompatibilität mit den Typkonvertierungsregeln älterer Spark-Versionen bei.

    spark.sql.legacy. charVarcharAsZeichenfolge

    Gibt an, ob die Typen CHAR und VARCHAR als STRING-Typen behandelt werden sollen. Diese Legacy-Einstellung bietet Kompatibilität mit der Verarbeitung von String-Typen in älteren Spark-Versionen.

    spark.sql.legacy. createEmptyCollectionUsingStringType

    Gibt an, ob leere Sammlungen mithilfe von Zeichenkettenelementen erstellt werden sollen. Diese Legacy-Einstellung gewährleistet die Kompatibilität mit dem Verhalten älterer Spark-Versionen bei der Initialisierung von Sammlungen.

    spark.sql.legacy. exponentLiteralAsDezimal. Aktiviert

    Gibt an, ob exponentielle Literale als Dezimaltypen interpretiert werden sollen. Diese Legacy-Einstellung gewährleistet die Kompatibilität mit der numerischen Literalverarbeitung älterer Spark-Versionen.

    spark.sql.legacy.json. allowEmptyString. aktiviert

    Gibt an, ob leere Zeichenfolgen bei der JSON-Verarbeitung zulässig sind. Diese Legacy-Einstellung gewährleistet die Kompatibilität mit dem JSON-Parsing-Verhalten älterer Spark-Versionen.

    spark.sql.legacy.parquet.int96 RebaseModelRead

    Gibt an, ob beim Lesen von Parquet-Dateien der alte Timestamp-Rebase-Modus verwendet werden soll. INT96 Diese Legacy-Einstellung gewährleistet die Kompatibilität mit der Zeitstempelverarbeitung älterer Spark-Versionen.

    spark.sql.legacy. timeParserPolicy

    Steuert das Zeitanalyseverhalten aus Gründen der Abwärtskompatibilität. Diese ältere Einstellung bestimmt, wie Zeitstempel und Datumsangaben anhand von Zeichenketten analysiert werden.

    spark.sql.Legacy.TypeCoercion. datetimeToString. aktiviert

    Gibt an, ob bei der Konvertierung von Datetime-Werten in Zeichenfolgen das Zwangsverhalten älterer Typen aktiviert werden soll. Behält die Kompatibilität mit den Datetime-Konvertierungsregeln älterer Spark-Versionen bei.

    spark.sql. maxSinglePartitionByte

    Legt die maximale Partitionsgröße in Byte fest. Der Planer führt Shuffle-Operationen für größere Partitionen ein, um die Parallelität zu verbessern.

    128 m

    spark.sql.Metadatencache TTLSeconds

    Steuert die (TTL) für time-to-live Metadaten-Caches. Gilt für Partitionsdatei-Metadaten und Sitzungskatalog-Caches. Erfordert:

    • Ein positiver Wert größer als Null

    • spark.sql.CatalogImplementation ist auf Hive gesetzt

    • spark.sql.hive. filesourcePartitionFileCacheSize größer als Null

    • spark.sql.hive. manageFilesourcePartitions auf true gesetzt

    -1000 ms

    spark.sql.optimizer. collapseProjectAlwaysInline

    Gibt an, ob benachbarte Projektionen und Inline-Ausdrücke ausgeblendet werden sollen, auch wenn dies zu Duplikaten führt.

    FALSE

    spark.sql.optimizer. dynamicPartitionPruning. aktiviert

    Gibt an, ob Prädikate für Partitionsspalten generiert werden sollen, die als Join-Schlüssel verwendet werden.

    TRUE

    spark.sql.optimizer. enableCsvExpressionOptimierung

    Gibt an, ob CSV-Ausdrücke im SQL-Optimizer optimiert werden sollen, indem unnötige Spalten aus from_csv-Vorgängen entfernt werden.

    TRUE

    spark.sql.optimizer. enableJsonExpressionOptimierung

    Gibt an, ob JSON-Ausdrücke im SQL-Optimizer wie folgt optimiert werden sollen:

    • Löschen unnötiger Spalten aus from_json-Vorgängen

    • Vereinfachung der Kombinationen from_json und to_json

    • Optimierung von named_struct-Operationen

    TRUE

    spark.sql.Optimizer.ExcludedRules

    Definiert zu deaktivierende Optimizer-Regeln, identifiziert durch kommagetrennte Regelnamen. Einige Regeln können nicht deaktiviert werden, da sie aus Gründen der Richtigkeit erforderlich sind. Der Optimizer protokolliert, welche Regeln erfolgreich deaktiviert wurden.

    (Keine)

    spark.sql.optimizer.runtime.BloomFilter. applicationSideScanSizeThreshold

    Legt die minimale aggregierte Scangröße in Byte fest, die erforderlich ist, um einen Bloom-Filter auf der Anwendungsseite einzufügen.

    10 GB

    spark.sql.Optimizer.Runtime.BloomFilter. creationSideThreshold

    Definiert den maximalen Größenschwellenwert für die Injektion eines Bloom-Filters auf der Erstellungsseite.

    10 MB

    spark.sql.Optimizer.Runtime.BloomFilter.Enabled

    Gibt an, ob ein Bloom-Filter eingefügt werden soll, um Shuffle-Daten zu reduzieren, wenn eine Seite einer Shuffle-Verknüpfung über ein selektives Prädikat verfügt.

    TRUE

    spark.sql.optimizer.runtime.BloomFilter. expectedNumItems

    Definiert die Standardanzahl erwarteter Elemente im Runtime-Bloom-Filter.

    1000000

    spark.sql.optimizer.runtime.BloomFilter. maxNumBits

    Legt die maximale Anzahl von Bits fest, die im Runtime-Bloom-Filter zulässig sind.

    67108864

    spark.sql.optimizer.runtime.BloomFilter. maxNumItems

    Legt die maximale Anzahl erwarteter Elemente fest, die im Runtime-Bloom-Filter zulässig sind.

    4000000

    spark.sql.optimizer.runtime.BloomFilter.Number.Threshold

    Schränkt die maximale Anzahl von Nicht-DPP-Laufzeitfiltern pro Abfrage ein, um Fehler im Treiber zu verhindern. out-of-memory

    10

    spark.sql.optimizer.runtime.BloomFilter.NumBits

    Definiert die Standardanzahl von Bits, die im Runtime-Bloom-Filter verwendet werden.

    8388608

    spark.sql.optimizer.runtime. rowlevelOperationGroupFilter. Aktiviert

    Gibt an, ob die Laufzeitgruppenfilterung für Operationen auf Zeilenebene aktiviert werden soll. Ermöglicht Datenquellen:

    • Löschen ganzer Datengruppen (wie Dateien oder Partitionen) mithilfe von Datenquellenfiltern

    • Führen Sie Laufzeitabfragen aus, um übereinstimmende Datensätze zu identifizieren

    • Verwerfen Sie unnötige Gruppen, um teure Neuschreibungen zu vermeiden

    Einschränkungen:

    • Nicht alle Ausdrücke können in Datenquellenfilter konvertiert werden

    • Einige Ausdrücke erfordern eine Spark-Auswertung (z. B. Unterabfragen)

    TRUE

    spark.sql.Optimizer.RuntimeFilter. semiJoinReduction. aktiviert

    Gibt an, ob ein Semi-Join eingefügt werden soll, um die Anzahl der Shuffle-Daten zu reduzieren, wenn eine Seite einer Shuffle-Verknüpfung ein selektives Prädikat hat.

    FALSE

    spark.sql.parquet.AggregatePushDown

    Gibt an, ob Aggregate zur Optimierung nach Parquet übertragen werden sollen. Unterstützt:

    • MIN und MAX für die Typen Boolean, Integer, Float und Date

    • COUNT für alle Datentypen

    Löst eine Ausnahme aus, wenn Statistiken in einer Fußzeile einer Parquet-Datei fehlen.

    FALSE

    spark.sql.parquet. columnarReaderBatchGröße

    Steuert die Anzahl der Zeilen in jedem Stapel von vektorisierten Parquet-Readern. Wählen Sie einen Wert, der Leistungsaufwand und Speichernutzung ausbalanciert, um Fehler zu vermeiden out-of-memory.

    4096

    spark.sql.session.TimeZone

    Definiert die Sitzungszeitzone für die Verarbeitung von Zeitstempeln in Zeichenfolgenliteralen und die Konvertierung von Java-Objekten. Akzeptiert:

    • Regionsbasiertes IDs area/city Format (z. B. America/Los_Angeles)

    • Zonenversätze im Format (+/-) HH, (+/-) HH:mm oder (+/-) HH:mm:SS (z. B. -08 oder + 01:00)

    • UTC oder Z als Aliase für + 00:00

    (Wert der lokalen Zeitzone)

    spark.sql.shuffle.partitions

    Legt die Standardanzahl von Partitionen für das Mischen von Daten bei Verknüpfungen oder Aggregationen fest. Kann zwischen Neustarts strukturierter Streaming-Abfragen von derselben Checkpoint-Position aus nicht geändert werden.

    200

    spark.sql. shuffledHashJoinFaktor

    Definiert den Multiplikationsfaktor, der verwendet wird, um die Eignung für einen Shuffle-Hash-Join zu bestimmen. Ein Shuffle-Hash-Join wird ausgewählt, wenn die kleine Datengröße multipliziert mit diesem Faktor kleiner ist als die große Datengröße.

    3

    spark.sql.sources. parallelPartitionDiscovery. Schwellenwert

    Legt die maximale Anzahl von Pfaden für die treiberseitige Dateiauflistung mit dateibasierten Quellen (Parquet, JSON und ORC) fest. Wenn sie bei der Partitionserkennung überschritten werden, werden Dateien mithilfe eines separaten verteilten Spark-Jobs aufgelistet.

    32

    spark.sql.statistics.histogram.enabled

    Gibt an, ob bei der Berechnung der Spaltenstatistiken Histogramme mit gleicher Höhe generiert werden sollen, um die Schätzgenauigkeit zu verbessern. Erfordert einen zusätzlichen Tabellenscan, der über den für einfache Spaltenstatistiken erforderlichen hinausgeht.

    FALSE

    Quelle

    https://spark.apache.org/docs/latest/configuration.html#spark -properties

  12. Klicken Sie auf Ausführen.

    Anmerkung

    Sie können die Abfrage nicht ausführen, wenn das Mitglied, das Ergebnisse empfangen kann, die Einstellungen für die Abfrageergebnisse nicht konfiguriert hat.

  13. Sehen Sie sich die Ergebnisse an.

    Weitere Informationen finden Sie unter Empfangen und Verwenden von Analyseergebnissen.

  14. Passen Sie die Parameter weiter an und führen Sie Ihre Abfrage erneut aus, oder klicken Sie auf die Schaltfläche +, um eine neue Abfrage auf einer neuen Registerkarte zu starten.

Anmerkung

AWS Clean Rooms zielt darauf ab, klare Fehlermeldungen bereitzustellen. Wenn eine Fehlermeldung nicht genügend Details enthält, um Ihnen bei der Fehlerbehebung zu helfen, wenden Sie sich an das Account-Team. Geben Sie ihnen eine Beschreibung, wie der Fehler aufgetreten ist, und geben Sie ihnen die Fehlermeldung (einschließlich aller Identifikatoren). Weitere Informationen finden Sie unter Problembehebung AWS Clean Rooms.