EMR Studio 콘솔에서 작업 실행 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

EMR Studio 콘솔에서 작업 실행

EMR Serverless 애플리케이션에 작업 실행을 제출하고 EMR Studio 콘솔에서 작업을 볼 수 있습니다. EMR Studio 콘솔에서 EMR Serverless 애플리케이션을 생성하거나 탐색하려면 콘솔에서 시작하기의 지침을 수행합니다.

작업 제출

작업 제출 페이지에서 다음과 같이 EMR Serverless 애플리케이션에 작업을 제출할 수 있습니다.

Spark
  1. 이름 필드에 작업 실행 이름을 입력합니다.

  2. 런타임 역할 필드에 EMR Serverless 애플리케이션이 작업 실행을 위해 수임할 수 있는 IAM 역할의 이름을 입력합니다. 런타임 역할에 대한 자세한 내용은 Amazon EMR Serverless에 대한 작업 런타임 역할 섹션을 참조하세요.

  3. 스크립트 위치 필드에 실행하려는 스크립트 또는 JAR에 대한 Amazon S3 위치를 입력합니다. Spark 작업의 경우 스크립트는 Python(.py) 파일 또는 JAR(.jar) 파일일 수 있습니다.

  4. 스크립트 위치가 JAR 파일인 경우 기본 클래스 필드에 작업의 진입점인 클래스 이름을 입력합니다.

  5. (선택 사항) 나머지 필드의 값을 입력합니다.

    • 스크립트 인수 - 기본 JAR 또는 Python 스크립트에 전달할 인수를 입력합니다. 코드에서 이러한 파라미터를 읽습니다. 배열의 각 인수를 쉼표로 분리합니다.

    • Spark 속성 - Spark 속성 섹션을 확장하고 이 필드에 Spark 구성 파라미터를 입력합니다.

      참고

      Spark 드라이버 및 실행기 크기를 지정하는 경우 메모리 오버헤드를 고려해야 합니다. spark.driver.memoryOverheadspark.executor.memoryOverhead 속성에서 메모리 오버헤드 값을 지정합니다. 메모리 오버헤드의 기본값은 컨테이너 메모리의 10%(최소 384MB)입니다. 실행기 메모리 및 메모리 오버헤드를 합한 값이 작업자 메모리를 초과할 수 없습니다. 예를 들어 30GB 작업자의 최대 spark.executor.memory는 27GB여야 합니다.

    • 작업 구성 - 이 필드에서 작업 구성을 지정합니다. 이러한 작업 구성을 사용하여 애플리케이션에 대한 구성 객체를 재정의할 수 있습니다.

    • 추가 설정 - AWS Glue Data Catalog를 메타스토어로 활성화 또는 비활성화하고 애플리케이션 로그 설정을 수정합니다. 메타스토어 구성에 대해 자세히 알아보려면 EMR Serverless에 대한 메타스토어 구성 섹션을 참조하세요. 애플리케이션 로깅 옵션에 대해 자세히 알아보려면 로그 저장섹션을 참조하세요.

    • 태그 - 애플리케이션에 사용자 지정 태그를 할당합니다.

  6. 작업 제출을 선택합니다.

Hive
  1. 이름 필드에 작업 실행 이름을 입력합니다.

  2. 런타임 역할 필드에 EMR Serverless 애플리케이션이 작업 실행을 위해 수임할 수 있는 IAM 역할의 이름을 입력합니다.

  3. 스크립트 위치 필드에 실행하려는 스크립트 또는 JAR에 대한 Amazon S3 위치를 입력합니다. Hive 작업의 경우 스크립트는 Hive(.sql) 파일이어야 합니다.

  4. (선택 사항) 나머지 필드의 값을 입력합니다.

    • 초기화 스크립트 위치 - Hive 스크립트가 실행되기 전에 테이블을 초기화하는 스크립트의 위치를 입력합니다.

    • Hive 속성 - Hive 속성 섹션을 확장하고 이 필드에 Hive 구성 파라미터를 입력합니다.

    • 작업 구성 - 작업 구성을 지정합니다. 이러한 작업 구성을 사용하여 애플리케이션에 대한 구성 객체를 재정의할 수 있습니다. Hive 작업의 경우 hive.exec.scratchdirhive.metastore.warehouse.dirhive-site 구성에 필요한 속성입니다.

      { "applicationConfiguration": [ { "classification": "hive-site", "configurations": [], "properties": { "hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET/hive/scratch", "hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET/hive/warehouse" } } ], "monitoringConfiguration": {} }
    • 추가 설정 - AWS Glue 데이터 카탈로그를 메타스토어로 활성화 또는 비활성화하고 애플리케이션 로그 설정을 수정합니다. 메타스토어 구성에 대해 자세히 알아보려면 EMR Serverless에 대한 메타스토어 구성 섹션을 참조하세요. 애플리케이션 로깅 옵션에 대해 자세히 알아보려면 로그 저장섹션을 참조하세요.

    • 태그 - 애플리케이션에 사용자 지정 태그를 할당합니다.

  5. 작업 제출을 선택합니다.

작업 실행 보기

애플리케이션 세부 정보 페이지의 작업 실행 탭에서 작업 실행을 보고 작업 실행에 대해 다음 작업을 수행할 수 있습니다.

작업 취소 - RUNNING 상태인 작업 실행을 취소하려면 이 옵션을 선택합니다. 작업 실행 전환에 대해 자세히 알아보려면 작업 실행 상태 섹션을 참조하세요.

작업 복제 - 이전 작업 실행을 복제하고 다시 제출하려면 이 옵션을 선택합니다.