OpenSearch Service에서 Amazon S3 데이터 직접 쿼리

이 섹션에서는 Amazon S3에 저장된 데이터를 효율적으로 쿼리하고 분석할 수 있도록 Amazon OpenSearch Service에서 데이터 소스 통합을 생성하고 구성하는 프로세스를 안내합니다.

다음 페이지에서는 Amazon S3 직접 쿼리 데이터 소스를 설정하고, 필요한 사전 조건을 탐색하고, AWS Management Console 및 OpenSearch Service API를 모두 사용하여 단계별 절차를 수행하는 방법을 알아봅니다. 또한 OpenSearch Dashboards의 AWS Glue Data Catalog 역할 매핑 및 액세스 제어 구성을 비롯한 중요한 다음 단계도 다룹니다.

주제

가격 책정

Amazon OpenSearch Service는 Amazon S3 다이렉트 쿼리에 대해 OpenSearch 컴퓨팅 유닛(OCU) 요금을 제공합니다. 직접 쿼리를 실행하면 청구서에 DirectQuery OCUs 사용 유형으로 나열된 시간당 OCU 요금이 발생합니다. 또한 데이터 스토리지에 대해 Amazon S3와 별도의 요금이 발생합니다.

직접 쿼리는 대화형 보기 쿼리와 인덱싱된 뷰 쿼리의 두 가지 유형이 있습니다.

대화형 쿼리는 데이터 선택기를 채우고 Amazon S3의 데이터에 대한 분석을 수행하는 데 사용됩니다. Discover에서 새 쿼리를 실행하면 OpenSearch Service는 최소 3분 동안 지속되는 새 세션을 시작합니다. OpenSearch Service는 후속 쿼리가 빠르게 실행되도록 이 세션을 활성 상태로 유지합니다.
인덱싱된 뷰 쿼리는 컴퓨팅을 사용하여 OpenSearch Service에서 인덱스를 유지 관리합니다. 이 쿼리는 다양한 양의 데이터를 명명된 인덱스로 수집하기 때문에 일반적으로 시간이 더 오래 걸립니다. Amazon S3 데이터 소스의 경우 인덱싱된 데이터는 구매한 인스턴스 유형에 따라 도메인에 저장됩니다.

자세한 내용은 Amazon OpenSearch Service 요금에서 직접 쿼리 및 서버리스 섹션을 참조하세요.

제한 사항

Amazon S3의 직접 쿼리에는 다음 제한 사항이 적용됩니다.

S3에 대한 직접 쿼리는 OpenSearch 버전 2.13 이상을 실행하는 OpenSearch Service 도메인에서만 사용할 수 있으며에 액세스해야 합니다 AWS Glue Data Catalog. 기존 AWS Glue Data Catalog 테이블은 OpenSearch Query Workbench에서 SQL을 사용하여 다시 생성해야 합니다.
S3에 대한 직접 쿼리를 사용하려면 Amazon S3에 체크포인트 버킷을 지정해야 합니다. 이 버킷은 마지막 새로 고침 시간과 가장 최근에 수집된 데이터를 비롯하여 인덱싱된 뷰의 상태를 유지합니다.
OpenSearch 도메인 및는 동일한에 있어야 AWS Glue Data Catalog 합니다 AWS 계정. S3 버킷은 다른 계정에 있을 수 있지만(IAM 정책에 조건을 추가해야 함) 도메인 AWS 리전 과 동일한에 있어야 합니다.
S3와의 OpenSearch Service 직접 쿼리는 쿼리 워크벤치에서 생성된 Spark 테이블만 지원합니다. AWS Glue Data Catalog 또는 Athena 내에서 생성된 테이블은 인덱싱된 뷰를 유지하는 데 필요한 Spark 스트리밍에서 지원되지 않습니다.
OpenSearch 인스턴스 유형에는 선택한 특정 인스턴스 유형에 따라 10MiB 또는 100MiB의 네트워크 페이로드 제한이 적용됩니다.
일부 데이터 유형은 지원되지 않습니다. 지원되는 데이터 유형은 Parquet, CSV 및 JSON으로 제한됩니다.
시간이 지남에 따라 데이터 구조가 변경되는 경우 데이터 구조 변경을 고려하여 인덱싱된 뷰 또는 기본 제공 통합을 업데이트해야 합니다.
AWS CloudFormation 템플릿은 아직 지원되지 않습니다.
OpenSearch SQL 및 OpenSearch PPL 문은 직접 쿼리를 사용하는 것과 비교하여 OpenSearch 인덱스 관련 작업을 할 때 제한 사항이 서로 다릅니다. 직접 쿼리는 JOIN, 하위 쿼리 및 조회와 같은 고급 명령을 지원하지만, OpenSearch 인덱스에서 이러한 명령에 대한 지원은 제한되거나 존재하지 않습니다. 자세한 내용은 지원되는 SQL 및 PPL 명령 단원을 참조하십시오.

권장 사항

Amazon S3에서 직접 쿼리를 사용할 때는 다음을 권장합니다.

연도, 월, 일, 시간의 파티션 형식을 사용하여 Amazon S3에 데이터를 수집하여 쿼리 속도를 높입니다.
건너뛰기 인덱스를 빌드할 때는 높은 카디널리티에는 블룸 필터를 사용하고 값 범위가 큰 필드에는 최소/최대 인덱스를 사용합니다. 카디널리티가 높은 필드의 경우 값 기반 접근 방식을 사용하여 쿼리 효율성을 개선하는 것이 좋습니다.
인덱스 상태 관리를 사용하여 구체화된 뷰 및 커버링 인덱스에 대한 스토리지를 유지 관리합니다.
COALESCE SQL 함수를 사용하여 누락된 열을 처리하고 결과가 반환되도록 보장합니다.
쿼리에 제한을 사용하여 너무 많은 데이터를 다시 가져오지 않도록 합니다.

할당량

Amazon S3 데이터 소스에 대한 쿼리를 시작할 때마다 OpenSearch Service는 세션을 열고 최소 3분 동안 활성 상태로 유지합니다. 이렇게 하면 후속 쿼리에서 세션을 시작할 필요가 없으므로 쿼리 지연 시간이 줄어듭니다.

설명	최대	재정의 가능
도메인당 연결 수	10	예
도메인당 데이터 소스 수	20	예
도메인당 인덱스 수	5	예
데이터 소스별 동시 세션 수	10	예
쿼리당 최대 OCU	60	예
최대 쿼리 실행 시간(분)	30	예
가속화당 최대 OCU	20	예
최대 임시 스토리지	20	예

지원됨 AWS 리전

다음은 Amazon S3의 직접 쿼리에 대해 지원 AWS 리전 됩니다.

아시아 태평양(홍콩)
아시아 태평양(뭄바이)
아시아 태평양(서울)
아시아 태평양(싱가포르)
아시아 태평양(시드니)
아시아 태평양(도쿄)
캐나다(중부)
유럽(프랑크푸르트)
유럽(아일랜드)
유럽(스톡홀름)
미국 동부(버지니아 북부)
미국 동부(오하이오)
미국 서부(오리건)

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

직접 쿼리에 대한 작업

S3 데이터 소스 생성