Esecuzione degli script SQL StartJobRun di Spark tramite l'API

Amazon EMR su EKS versione 6.7.0 e successive include un nuovo driver di processi Spark SQL che permette di eseguire gli script Spark SQL attraverso l'API StartJobRun. PUoi fornire i file entry-point SQL per eseguire le query Spark SQL in Amazon EMR su EKS con l'API StartJobRun, senza modifiche agli script Spark SQL esistenti. La tabella seguente elenca i parametri Spark supportati per i job SQL di Spark tramite l'API. StartJobRun

Puoi scegliere tra i seguenti parametri Spark da inviare a un processo Spark SQL. Utilizza questi parametri per sovrascrivere le proprietà Spark predefinite.

Opzione	Description
--name NAME	Nome applicazione
--jars JARS	Elenco separato da virgole dei jar da includere nel classpath di driver ed esecuzione.
--packages	Elenco separato da virgole delle coordinate maven dei jar, da includere nei classpath di driver ed executor.
--exclude-packages	Elenco separato da virgole di groupId:artifactId, da escludere durante la risoluzione delle dipendenze fornite in –packages per evitare conflitti di dipendenze.
--repositories	Elenco separato da virgole di repository remoti aggiuntivi per la ricerca delle coordinate maven fornite con –packages.
--files FILES	Elenco separato da virgole di file da inserire nella directory di lavoro di ogni executor.
--conf PROP=VALUE	Proprietà di configurazione Spark.
--properties-file FILE	Percorso verso un file da cui caricare proprietà aggiuntive.
--driver-memory MEM	Memoria per il driver. Valore predefinito: 1.024 MB.
--driver-java-options	Opzioni Java extra da passare al driver.
--driver-library-path	Voci aggiuntive percorso libreria da passare al driver.
--driver-class-path	Voci aggiuntive classpath da passare al driver.
--executor-memory MEM	Memoria per ogni executor. Valore predefinito 1 GB.
--driver-cores NUM	Numero di core utilizzati dal driver.
-- NUM total-executor-cores	Numero totale di core per tutti gli executor.
--executor-cores NUM	Numero di core utilizzati da ogni executor.
--num-executors NUM	Numero di executor da avviare.
-hivevar <key=value>	Sostituzione di variabile da applicare ai comandi Hive, ad esempio `-hivevar A=B`
-hiveconf <property=value>	Valore da usare per la proprietà data.

Per un job SQL Spark, crea un start-job-run-request file.json e specifica i parametri richiesti per l'esecuzione del job, come nell'esempio seguente:


{
  "name": "myjob", 
  "virtualClusterId": "123456",  
  "executionRoleArn": "iam_role_name_for_job_execution", 
  "releaseLabel": "emr-6.7.0-latest", 
  "jobDriver": {
    "sparkSqlJobDriver": {
      "entryPoint": "entryPoint_location",
       "sparkSqlParameters": "--conf spark.executor.instances=2 --conf spark.executor.memory=2G --conf spark.executor.cores=2 --conf spark.driver.cores=1"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.driver.memory":"2G"
         }
      }
    ], 
    "monitoringConfiguration": {
      "persistentAppUI": "ENABLED", 
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "my_log_group", 
        "logStreamNamePrefix": "log_stream_prefix"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://my_s3_log_location"
      }
    }
  }
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Usa i log CloudWatch

Stati delle esecuzioni di processi