Amazon EMR 클러스터의 프라이머리 노드에 연결하고 쿼리를 실행합니다.

테스트 데이터 프로비저닝 및 권한 구성

Glue Data Catalog 및 해당 Hive AWS 메타스토어를 사용하여 Trino로 Amazon EMR을 테스트할 수 있습니다. 이러한 사전 조건 단계에서는 테스트 데이터를 설정하지 않은 경우 설정 방법을 설명합니다.

아직 생성하지 않은 경우 통신 암호화에 사용할 SSH 키를 생성합니다.
여러 파일 시스템에서 선택하여 데이터 및 로그 파일을 저장할 수 있습니다. Amazon S3 버킷을 생성하려면 버킷에 고유한 이름을 지정합니다. 생성할 때 생성한 암호화 키를 지정합니다.

참고
동일한 리전을 선택하여 스토리지 버킷과 Amazon EMR 클러스터를 모두 생성합니다.
생성한 버킷을 선택합니다. 폴더 생성을 선택하고 폴더에 기억하기 쉬운 이름을 지정합니다. 폴더를 생성할 때 보안 구성을 선택합니다. 상위에 대한 보안 설정을 선택하거나 보안 설정을 더 전문화할 수 있습니다.
폴더에 테스트 데이터를 추가합니다. 이 자습서에서는 쉼표로 구분된 레코드의 .csv를 사용하여 이 사용 사례를 효과적으로 완료할 수 있습니다.
Amazon S3 버킷에 데이터를 추가한 후 데이터 쿼리를 위한 추상화 계층을 제공하도록 AWS Glue에서 테이블을 구성합니다.

다음은 Trino를 실행하는 클러스터에 연결하고 쿼리를 실행하는 방법을 설명합니다. 이렇게 하기 전에 메타스토어 테이블이 표시되도록 이전 절차에서 설명한 Hive 메타스토어 커넥터를 설정합니다.

EC2 Instance Connect를 사용하여 클러스터에 연결하는 것이 좋습니다. 보안 연결을 제공하기 때문입니다. 클러스터 요약에서 SSH를 사용하여 프라이머리 노드에 연결을 선택합니다. 연결을 사용하려면 서브넷의 클라이언트에 대한 포트 22를 통한 연결을 허용하는 인바운드 규칙이 보안 그룹에 있어야 합니다. 또한 연결할 때 사용자 hadoop을 사용합니다.
trino-cli를 실행하여 Trino CLI를 시작합니다. 이 작업을 수행하면 Trino를 사용하여 명령을 실행하고 데이터를 쿼리할 수 있습니다.
show catalogs;를 실행합니다. Hive 카탈로그가 나열되어 있는지 확인합니다. 이는 데이터 스토어 또는 시스템 설정이 포함된 사용 가능한 카탈로그 목록을 제공합니다.
사용 가능한 스키마를 보려면 show schemas in hive;를 실행합니다. 여기에서 use schema-name;을(를) 실행하고 스키마 이름을 포함할 수 있습니다. 그런 다음 show tables;를 실행하여 테이블을 나열할 수 있습니다.
스키마의 테이블 이름을 사용하여 SELECT * FROM table-name 같은 명령을 실행하여 테이블을 쿼리합니다. 특정 스키마에 연결하기 위해 USE 문을 이미 실행한 경우 schema.table 같이 두 부분으로 구성된 표기법을 사용할 필요가 없습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

Trino로 Amazon EMR 클러스터 시작

Amazon EMR에서 Trino 구성