Partitionierung von Abfragen Option FILTER_PREDICATE

Lesen aus Salesforce

Voraussetzung

Ein Salesforce-Objekt, aus dem gelesen werden soll. Sie benötigen den Objektnamen, z. B. Account, Case oder Opportunity.

Beispiel:


salesforce_read = glueContext.create_dynamic_frame.from_options(
    connection_type="salesforce",
    connection_options={
        "connectionName": "connectionName",
        "ENTITY_NAME": "Account",
        "API_VERSION": "v60.0"
    }
)

Partitionierung von Abfragen

Sie können die zusätzlichen Spark-Optionen PARTITION_FIELD,LOWER_BOUND, UPPER_BOUND und NUM_PARTITIONS angeben, wenn Sie Parallelität in Spark nutzen möchten. Mit diesen Parametern würde die ursprüngliche Abfrage in NUM_PARTITIONS Unterabfragen aufgeteilt, die von Spark-Aufgaben gleichzeitig ausgeführt werden können.

PARTITION_FIELD: der Name des Feldes, das zur Partitionierung der Abfrage verwendet werden soll.
LOWER_BOUND: ein inklusiver Untergrenzwert des ausgewählten Partitionsfelds.

Für Datums- oder Zeitstempelfelder akzeptiert der Connector das Spark-Zeitstempelformat, das in Spark-SQL-Abfragen verwendet wird.

Beispiele für gültige Werte:
```
"TIMESTAMP \"1707256978123\""
"TIMESTAMP '2018-01-01 00:00:00.000 UTC'"
"TIMESTAMP \"2018-01-01 00:00:00 Pacific/Tahiti\"" 
"TIMESTAMP \"2018-01-01 00:00:00\""
"TIMESTAMP \"-123456789\" Pacific/Tahiti"
"TIMESTAMP \"1702600882\""
```
UPPER_BOUND: ein exklusiver Obergrenzwert des ausgewählten Partitionsfelds.
NUM_PARTITIONS: die Anzahl der Partitionen.
TRANSFER_MODE: unterstützt zwei Modi: SYNC und ASYNC. Der Standardwert ist SYNC. Wenn diese Option auf ASYNC gesetzt ist, wird die Bulk-API-2.0-Abfrage für die Verarbeitung verwendet.

Beispiel:


salesforce_read = glueContext.create_dynamic_frame.from_options(
    connection_type="salesforce",
    connection_options={
        "connectionName": "connectionName",
        "ENTITY_NAME": "Account",
        "API_VERSION": "v60.0",
        "PARTITION_FIELD": "SystemModstamp",
        "LOWER_BOUND": "TIMESTAMP '2021-01-01 00:00:00 Pacific/Tahiti'",
        "UPPER_BOUND": "TIMESTAMP '2023-01-10 00:00:00 Pacific/Tahiti'",
        "NUM_PARTITIONS": "10",
        "TRANSFER_MODE": "ASYNC" 
    }
)

Option FILTER_PREDICATE

FILTER_PREDICATE: Dies ist ein optionaler Parameter. Diese Option wird für den Abfragefilter verwendet.

Beispiele für FILTER_PREDICATE:


     Case 1: FILTER_PREDICATE with single criterion
     Examples: 	
       LastModifiedDate >= TIMESTAMP '2025-04-01 00:00:00 Pacific/Tahiti'
       LastModifiedDate <= TIMESTAMP "2025-04-01 00:00:00"
       LastModifiedDate >= TIMESTAMP '2018-01-01 00:00:00.000 UTC'
       LastModifiedDate <= TIMESTAMP "-123456789 Pacific/Tahiti"
       LastModifiedDate <= TIMESTAMP "1702600882"

     Case 2: FILTER_PREDICATE with multiple criteria
     Examples: 
       LastModifiedDate >= TIMESTAMP '2025-04-01 00:00:00 Pacific/Tahiti' AND Id = "0012w00001CotGiAAJ"
       LastModifiedDate >= TIMESTAMP "1702600882" AND Id = "001gL000002i26MQAQ"

     Case 3: FILTER_PREDICATE single criterion with LIMIT
     Examples: 
       LastModifiedDate >= TIMESTAMP "1702600882" LIMIT 2

     Case 4: FILTER_PREDICATE with LIMIT
     Examples: 
       LIMIT 2

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Konfigurieren von Salesforce-Verbindungen

Schreiben in Salesforce