데이터 레이크 쿼리

Amazon Redshift를 사용하여 데이터를 Amazon Redshift 테이블에 로드하지 않고도 Amazon S3에서 데이터를 쿼리할 수 있습니다. Amazon Redshift는 Amazon Redshift 클러스터와 Amazon S3 데이터 레이크 모두에 저장된 초대형 데이터 집합의 빠른 온라인 분석 처리(OLAP)를 위해 설계된 SQL 기능을 제공합니다. Iceberg, Parquet, ORC, RCFile, TextFile, SequenceFile, RegexSerde, OpenCSV 및 AVRO를 비롯한 다양한 형식의 데이터를 쿼리할 수 있습니다. Amazon S3에서 파일 구조를 정의하려면 외부 스키마와 테이블을 생성합니다. 그런 다음 AWS Glue 또는 자체 Apache Hive 메타스토어와 같은 외부 데이터 카탈로그를 사용합니다. 데이터 카탈로그의 변경 사항은 Amazon Redshift 클러스터에서 즉시 사용할 수 있습니다.

데이터가 AWS Glue Data Catalog에 등록되고 AWS Lake Formation에서 사용할 수 있으면 데이터 레이크 쿼리를 시작할 수 있습니다.

하나 이상의 열에서 외부 테이블을 분할하여 파티션 제거를 통해 쿼리 성능을 최적화할 수 있습니다. Amazon Redshift 테이블을 사용하여 외부 테이블을 쿼리하고 조인할 수 있습니다. 여러 Amazon Redshift 클러스터에서 외부 테이블에 액세스하고 동일한 AWS 리전의 모든 클러스터에서 Amazon S3 데이터를 쿼리할 수 있습니다. Amazon S3 데이터 파일을 업데이트하면 어느 Amazon Redshift 클러스터에서나 해당 데이터를 즉시 사용할 수 있습니다.

RG 및 Redshift Serverless용 통합 데이터 레이크 쿼리 엔진 사용

Amazon Redshift RG 클러스터와 Amazon Redshift Serverless에는 클러스터의 자체 컴퓨팅 리소스에서 실행되는 통합 데이터 레이크 쿼리 엔진이 포함되어 있어 데이터 레이크 및 데이터 웨어하우스 사용 사례 모두에 대해 통합된 환경을 제공합니다.

통합 데이터 레이크 쿼리 엔진을 사용하면 Redshift Spectrum을 사용할 필요가 없어져서 관련 Redshift Spectrum 요금이 발생하지 않습니다. 통합 데이터 레이크 쿼리 엔진은 기본적으로 활성화되어 있으므로 추가 구성이 필요하지 않습니다.

참고

경우에 따라, 전용 컴퓨팅 리소스를 사용하여 독립적으로 규모가 조정되는 Redshift Spectrum을 실행하는 RA3 클러스터와 비교했을 때 RG에서 성능이 저하될 수 있습니다. 쿼리 성능이 저하되는 경우 노드를 추가하거나 더 큰 RG 인스턴스 크기로 업그레이드하는 것이 좋습니다.

DC2 및 RA3에 Redshift Spectrum 사용

DC2 및 RA3 프로비저닝된 클러스터에서 Redshift Spectrum은 클러스터와 독립적인 전용 Amazon Redshift 서버에 상주합니다. Redshift Spectrum은 조건자 필터링 및 집계 같은 많은 컴퓨팅 집약적 태스크를 Redshift Spectrum 계층에 푸시합니다. 또한 Redshift Spectrum은 대규모 병렬 처리를 활용하도록 지능적으로 확장됩니다.

Redshift Spectrum 및 데이터 레이크 작업 방법을 포함하여 Redshift Spectrum에 대한 자세한 내용은 Amazon Redshift 데이터베이스 개발자 안내서의 Amazon Redshift Spectrum 시작하기를 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon Redshift 데이터베이스에 없는 데이터 쿼리

원격 데이터 소스 쿼리