기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon EMR 클러스터의 프라이머리 노드에 연결하고 쿼리를 실행합니다.
테스트 데이터 프로비저닝 및 권한 구성
Glue Data Catalog 및 해당 Hive AWS 메타스토어를 사용하여 Trino로 Amazon EMR을 테스트할 수 있습니다. 이러한 사전 조건 단계에서는 테스트 데이터를 설정하지 않은 경우 설정 방법을 설명합니다.
아직 생성하지 않은 경우 통신 암호화에 사용할 SSH 키를 생성합니다.
여러 파일 시스템 중에서 선택하여 데이터 및 로그 파일을 저장할 수 있습니다. 시작하려면 Amazon S3 버킷을 생성합니다. 버킷에 고유한 이름을 지정합니다. 생성할 때 생성한 암호화 키를 지정합니다.
참고
동일한 리전을 선택하여 스토리지 버킷과 Amazon EMR 클러스터를 모두 생성합니다.
생성한 버킷을 선택합니다. 폴더 생성을 선택하고 폴더에 기억하기 쉬운 이름을 지정합니다. 폴더를 생성할 때 보안 구성을 선택합니다. 상위에 대한 보안 설정을 선택하거나 보안 설정을 더 전문화할 수 있습니다.
폴더에 테스트 데이터를 추가합니다. 이 자습서에서는 쉼표로 구분된 레코드의 .csv를 사용하면이 사용 사례를 완료하는 데 효과적입니다.
Amazon S3 버킷에 데이터를 추가한 후 데이터 쿼리를 위한 추상화 계층을 제공하도록 AWS Glue에서 테이블을 구성합니다.
쿼리 연결 및 실행
다음은 Trino를 실행하는 클러스터에 연결하고 쿼리를 실행하는 방법을 설명합니다. 이렇게 하기 전에 메타스토어 테이블이 표시되도록 이전 절차에서 설명한 Hive 메타스토어 커넥터를 설정해야 합니다.
EC2 Instance Connect를 사용하여 클러스터에 연결하는 것이 좋습니다. 보안 연결을 제공하기 때문입니다. 클러스터 요약에서 SSH를 사용하여 프라이머리 노드에 연결을 선택합니다. 연결을 사용하려면 서브넷의 클라이언트에 대한 포트 22를 통한 연결을 허용하는 인바운드 규칙이 보안 그룹에 있어야 합니다. 또한 연결할 때 사용자 hadoop을 사용해야 합니다.
를 실행하여 Trino CLI를 시작합니다
trino-cli
. 이를 통해 Trino를 사용하여 명령을 실행하고 데이터를 쿼리할 수 있습니다.show catalogs;
을(를) 실행합니다. Hive 카탈로그가 나열되어 있는지 확인합니다. 데이터 스토어 또는 시스템 설정이 포함된 사용 가능한 카탈로그 목록을 제공합니다.사용 가능한 스키마를 보려면를 실행합니다
show schemas in hive;
. 여기에서 스키마의 이름을 실행use
하고 포함할 수 있습니다. 그런 다음를 실행schema-name
;show tables;
하여 테이블을 나열할 수 있습니다.스키마의 테이블 이름을
SELECT * FROM
사용하여와 같은 명령을 실행하여 테이블을 쿼리합니다. 특정 스키마에 연결하기 위해table-name
USE
문을 이미 실행한 경우schema
.table
과 같은 두 부분으로 구성된 표기법을 사용할 필요가 없습니다.