Uso da classificação de envio de trabalho

Visão geral

A solicitação StartJobRun do Amazon EMR no EKS cria um pod de envio de trabalho (também conhecido como pod job-runner) para gerar o driver do Spark. Você pode usar a classificação emr-job-submitter para configurar seletores de nós para o pod remetente do trabalho, bem como definir a imagem, a CPU e a memória para o contêiner de registro em log do pod remetente do trabalho.

As seguintes configurações estão disponíveis na classificação emr-job-submitter:

jobsubmitter.node.selector.[labelKey]: É adicionada ao seletor de nó do pod de envio de trabalho, com a chave labelKey e o valor como o valor de configuração para a configuração. Por exemplo, você pode definir jobsubmitter.node.selector.identifier como myIdentifier e o pod de envio de trabalho terá um seletor de nó com um valor de identificador de chave myIdentifier. Isso pode ser usado para especificar em quais nós o pod remetente do trabalho pode ser colocado. Para adicionar diversas chaves seletoras de nós, defina diversas configurações com esse prefixo.
jobsubmitter.logging.image: Define uma imagem personalizada a ser usada para o contêiner de registro em log no pod remetente do trabalho.
jobsubmitter.logging.request.cores: Define um valor personalizado para o número de CPUs, em unidades de CPU, para o contêiner de log no pod do remetente do trabalho. Por padrão, ela é definida como 100m.
jobsubmitter.logging.request.memory: Define um valor personalizado para a quantidade de memória, em bytes, para o contêiner de log no pod do remetente do trabalho. Por padrão, ela é definida como 200Mi. Um mebibyte é uma unidade de medida semelhante a um megabyte.

Recomendamos colocar pods de remetentes de trabalhos em instâncias sob demanda. A colocação de pods remetentes de trabalhos em instâncias spot pode resultar em uma falha no trabalho se a instância em que o pod remetente de trabalho é executado estiver sujeita a uma interrupção da instância spot. Você também pode estabelecer o pod de envio de trabalho em uma única zona de disponibilidade ou usar quaisquer rótulos do Kubernetes aplicados aos nós.

Exemplos de classificação de envio de trabalho

Nesta seção

Solicitação StartJobRun com nó sob demanda estabelecido para o pod de envio de trabalho
Solicitação StartJobRun com nó em uma única zona de disponibilidade estabelecido para o pod de envio de trabalho
Solicitação StartJobRun com tipo de instância do Amazon EC2 e uma única zona de disponibilidade estabelecidos para o pod de envio de trabalho
Solicitação StartJobRun com imagem de contêiner de registro em log, CPU e memória personalizados
Solicitação StartJobRun com imagem de contêiner personalizada

Solicitação `StartJobRun` com nó sob demanda estabelecido para o pod de envio de trabalho


cat >spark-python-in-s3-nodeselector-job-submitter.json << EOF
{
  "name": "spark-python-in-s3-nodeselector", 
  "virtualClusterId": "virtual-cluster-id", 
  "executionRoleArn": "execution-role-arn", 
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py", 
       "sparkSubmitParameters": "--conf spark.driver.cores=5  --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.dynamicAllocation.enabled":"false"
         }
      },
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.node.selector.eks.amazonaws.com/capacityType": "ON_DEMAND"
        }
      }
    ], 
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs", 
        "logStreamNamePrefix": "demo"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}
EOF
aws emr-containers start-job-run --cli-input-json file:///spark-python-in-s3-nodeselector-job-submitter.json

Solicitação `StartJobRun` com nó em uma única zona de disponibilidade estabelecido para o pod de envio de trabalho


cat >spark-python-in-s3-nodeselector-job-submitter-az.json << EOF
{
  "name": "spark-python-in-s3-nodeselector", 
  "virtualClusterId": "virtual-cluster-id", 
  "executionRoleArn": "execution-role-arn", 
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py", 
       "sparkSubmitParameters": "--conf spark.driver.cores=5  --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.dynamicAllocation.enabled":"false"
         }
      },
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.node.selector.topology.kubernetes.io/zone": "Availability Zone"
        }
      }
    ], 
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs", 
        "logStreamNamePrefix": "demo"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}
EOF
aws emr-containers start-job-run --cli-input-json file:///spark-python-in-s3-nodeselector-job-submitter-az.json

Solicitação `StartJobRun` com tipo de instância do Amazon EC2 e uma única zona de disponibilidade estabelecidos para o pod de envio de trabalho


{
  "name": "spark-python-in-s3-nodeselector", 
  "virtualClusterId": "virtual-cluster-id", 
  "executionRoleArn": "execution-role-arn", 
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py", 
       "sparkSubmitParameters": "--conf spark.driver.cores=5  --conf spark.kubernetes.pyspark.pythonVersion=3 --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6 --conf spark.sql.shuffle.partitions=1000"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.dynamicAllocation.enabled":"false",
         }
      },
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.node.selector.topology.kubernetes.io/zone": "Availability Zone",
            "jobsubmitter.node.selector.node.kubernetes.io/instance-type":"m5.4xlarge"
        }
      }
    ], 
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs", 
        "logStreamNamePrefix": "demo"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}

Solicitação `StartJobRun` com imagem de contêiner de registro em log, CPU e memória personalizados


{
  "name": "spark-python", 
  "virtualClusterId": "virtual-cluster-id", 
  "executionRoleArn": "execution-role-arn", 
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.logging.image": "YOUR_ECR_IMAGE_URL",
            "jobsubmitter.logging.request.memory": "200Mi",
            "jobsubmitter.logging.request.cores": "0.5"
        }
      }
    ], 
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs", 
        "logStreamNamePrefix": "demo"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}

Solicitação `StartJobRun` com imagem de contêiner personalizada


cat >spark-python-in-s3-nodeselector-custom-container-image-job-submitter.json << EOF
{         
  "name": "spark-python-in-s3-nodeselector", 
  "virtualClusterId": "virtual-cluster-id",
  "executionRoleArn": "execution-role-arn",
  "releaseLabel": "emr-6.11.0-latest", 
  "jobDriver": {
    "sparkSubmitJobDriver": {
      "entryPoint": "s3://S3-prefix/trip-count.py",
       "sparkSubmitParameters": "--conf spark.driver.cores=5  --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults",
        "properties": {
          "spark.dynamicAllocation.enabled":"false"
         }
      },
      {
        "classification": "emr-job-submitter",
        "properties": {
            "jobsubmitter.container.image": "123456789012.dkr.ecr.us-west-2.amazonaws.com/emr6.11_custom_repo",
            "jobsubmitter.container.image.pullPolicy": "kubernetes pull policy"
        }
      }
    ],
    "monitoringConfiguration": {
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "/emr-containers/jobs",
        "logStreamNamePrefix": "demo"
      },
      "s3MonitoringConfiguration": {
        "logUri": "s3://joblogs"
      }
    }
  }
}
EOF
aws emr-containers start-job-run --cli-input-json file:///spark-python-in-s3-nodeselector-custom-container-image-job-submitter.json

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Envio de uma execução de trabalho com StartJobRun

Usar a classificação de padrões do contêiner do Amazon EMR

Uso da classificação de envio de trabalho

Visão geral

Exemplos de classificação de envio de trabalho

Nesta seção

Solicitação StartJobRun com nó sob demanda estabelecido para o pod de envio de trabalho

Solicitação StartJobRun com nó em uma única zona de disponibilidade estabelecido para o pod de envio de trabalho

Solicitação StartJobRun com tipo de instância do Amazon EC2 e uma única zona de disponibilidade estabelecidos para o pod de envio de trabalho

Solicitação StartJobRun com imagem de contêiner de registro em log, CPU e memória personalizados

Solicitação StartJobRun com imagem de contêiner personalizada

Solicitação `StartJobRun` com nó sob demanda estabelecido para o pod de envio de trabalho

Solicitação `StartJobRun` com nó em uma única zona de disponibilidade estabelecido para o pod de envio de trabalho

Solicitação `StartJobRun` com tipo de instância do Amazon EC2 e uma única zona de disponibilidade estabelecidos para o pod de envio de trabalho

Solicitação `StartJobRun` com imagem de contêiner de registro em log, CPU e memória personalizados

Solicitação `StartJobRun` com imagem de contêiner personalizada