Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esecuzione degli script SQL StartJobRun di Spark tramite l'API
Amazon EMR su EKS versione 6.7.0 e successive include un nuovo driver di processi Spark SQL che permette di eseguire gli script Spark SQL attraverso l'API StartJobRun. PUoi fornire i file entry-point SQL per eseguire le query Spark SQL in Amazon EMR su EKS con l'API StartJobRun, senza modifiche agli script Spark SQL esistenti. La tabella seguente elenca i parametri Spark supportati per i job SQL di Spark tramite l'API. StartJobRun
Puoi scegliere tra i seguenti parametri Spark da inviare a un processo Spark SQL. Utilizza questi parametri per sovrascrivere le proprietà Spark predefinite.
| Opzione | Descrizione |
|---|---|
|
--name NAME |
Nome applicazione |
| --jars JARS | Elenco separato da virgole dei jar da includere nel classpath di driver ed esecuzione. |
| --packages | Elenco separato da virgole delle coordinate maven dei jar, da includere nei classpath di driver ed executor. |
| --exclude-packages | Elenco separato da virgole di groupId:artifactId, da escludere durante la risoluzione delle dipendenze fornite in –packages per evitare conflitti di dipendenze. |
| --repositories | Elenco separato da virgole di repository remoti aggiuntivi per la ricerca delle coordinate maven fornite con –packages. |
| --files FILES | Elenco separato da virgole di file da inserire nella directory di lavoro di ogni executor. |
| --conf PROP=VALUE | Proprietà di configurazione Spark. |
| --properties-file FILE | Percorso verso un file da cui caricare proprietà aggiuntive. |
| --driver-memory MEM | Memoria per il driver. Valore predefinito: 1.024 MB. |
| --driver-java-options | Opzioni Java extra da passare al driver. |
| --driver-library-path | Voci aggiuntive percorso libreria da passare al driver. |
| --driver-class-path | Voci aggiuntive classpath da passare al driver. |
| --executor-memory MEM | Memoria per ogni executor. Valore predefinito 1 GB. |
| --driver-cores NUM | Numero di core utilizzati dal driver. |
| -- NUM total-executor-cores | Numero totale di core per tutti gli executor. |
| --executor-cores NUM | Numero di core utilizzati da ogni executor. |
| --num-executors NUM | Numero di executor da avviare. |
| -hivevar <key=value> | Sostituzione di variabile da applicare ai comandi Hive, ad esempio -hivevar
A=B |
| -hiveconf <property=value> | Valore da usare per la proprietà data. |
Per un job SQL Spark, crea un start-job-run-request file.json e specifica i parametri richiesti per l'esecuzione del job, come nell'esempio seguente:
{ "name": "myjob", "virtualClusterId": "123456", "executionRoleArn": "iam_role_name_for_job_execution", "releaseLabel": "emr-6.7.0-latest", "jobDriver": { "sparkSqlJobDriver": { "entryPoint": "entryPoint_location", "sparkSqlParameters": "--conf spark.executor.instances=2 --conf spark.executor.memory=2G --conf spark.executor.cores=2 --conf spark.driver.cores=1" } }, "configurationOverrides": { "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.driver.memory":"2G" } } ], "monitoringConfiguration": { "persistentAppUI": "ENABLED", "cloudWatchMonitoringConfiguration": { "logGroupName": "my_log_group", "logStreamNamePrefix": "log_stream_prefix" }, "s3MonitoringConfiguration": { "logUri": "s3://my_s3_log_location" } } } }